在学习爬虫的过程中总结一些经验
1.发送请求
第一步:导入request模板
import requests
然后就可以获取一个网页
req = requests.get(url)
get是获取HTML网页的主要方法,对应于HTTP的GET,request模板除了get之外还有很多其他的应用。
譬如说:
req = requests.post(url)
req = requests.put(url)
req = requests.delete(url)
req = requests.head(url)
req = requests.options(url)
2.获取信息
(一)可以通过req.text来获取所爬网站的内容:
import requests
req = requests.get(url)
r=req.text
print(r)
(二)可以使用r.encoding来获取网页编码:
import requests
req=requests.get(url)
r=req.encoding
这样就可以得到该网址的网页编码
(三)req.status_code可以直接获得该网页的状态码。
输出结果为200 该网页可以正常打开,不能正常打开为404
(四)req.headers可以获得响应头内容。
**注意:**是以字典的形式返回内容