requests库
公认的爬取网页最好的库
安装方法
用cmd打开控制台,输入
pip install requests
测试
抓取百度的网页代码。
打开IDLE输入一下代码
import requests
r = requests.get("http://www.baidu.com")
r.status_code
r.encoding = "UTF-8"
r.text
状态码为200即为成功,否则失败。
7个主要方法
requests.requests()
构造一个请求,支撑所有方法的基础。
requests.requests(method,url,**kewargs)
- method:请求方式,对应get/put/post等七种
- url:获取页面的url链接
- **kwargs:13个控制访问参数。其中params的使用方法:
**kwargs的13个参数
- params:字典或字节序列,作为参数增加到url中
- data:字典、字节序列或文件对象,作为Request的内容
- json:JSON格式的数据,作为Request的内容
- headers:字典,HTTP定制头
- cookies:字典或CookieJar,Request中的cookie
- auth:元组,支持HTTP认证功能
- files:字典类型,传输文件
- timeout:设定超时时间,单位为秒
- proxies:字典类型,设定访问代理服务器,可以增加登录认证
- allow_redirects:True/False,默认为True,重定向开关
- stream:True/False,默认为True,获取内容立即下载开关
- verify:True/False,默认为True,认证SSL证书开关
- cert:本地SSL证书路径
requests.get()
获取HTML网页的主要方法,对应于与HTTP的GET方法。
r= requests