前言
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。
因为python的脚本特性,python易于配置,对字符的处理也非常灵活,加上python有丰富的网络抓取模块,所以两者经常联系在一起。
一、如何下载requests库
首先用管理员权限打开cmd
输入指令 pip install requests 安装requests
pip install requests
如果pip版本过低输入 python -m pip install --upgrade pip 将pip更新到最新版本
python -m pip install --upgrade pip
然后再输入指令 pip install requests 安装requests
想要了解更多request工作信息可以到www.python-requests.org网站上获取
二、测试requests安装
测试访问百度主页
可以用cmd命令提示符进行操作
首先在cmd中输入指令 python
进到python中开始操作
引进request库
import requests
申请访问百度首页
r = requests.get ("http://www.baidu.com")
查看状态码
r.status_code
此时如果状态码为200,则访问成功,若为404,或者任何非200的状态码皆为没有访问成功
更改编码为utf-8位码
r.encoding = 'utf-8'
打印网页内容
r.text'