一、网络爬虫之规则
(1)requests库的应用
requests库的7个主要方法:
①requests.request():构造一个请求,支撑以下个方法的基础方法
②requests.get():获取HTML网页的主要方法,对应于HTTP的GET
③requests.head():获取HTML网页头信息的方法,对应于HTTP的HEAD
④requests.post():向HTML网页提交POST请求的方法,对应于HTTP的POST
⑤requests.put():向HTML网页提交PUT请求的方法,对应于HTTP的PUT
⑥requests.patch():向HTML网页提交局部修改请求,对应于HTTP的PATCH
⑦requests.delete():向HTML网页提交删除请求,对应于HTTP的DELETE
Response对象的属性:
①r.status_code:HTTP请求的返回状态,200标识连接成功,404表示失败
②r.text:HTTP响应内容的字符串形式,即url对应的页面内容
③r.encoding:从HTTP header中猜测的响应内容编码方式
④r.apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)
⑤r.content:HTTP响应内容的二进制形式
r.raise_for_status():如果不是200,产生异常requests.HTTPError
更改user-agent的值,然后以POST请求访问指定网址
import requests
hd = {'user-agent':'Chrome/10'}
r = requests.request('POST','http://httpbin.org/