1 资料
- 《Python网络爬虫从入门到实践》唐松,陈志铨。主要面向windows平台下的python3。
- 百度知道
- 菜鸟教程
2 笔记
静态网页抓取(一)知识
-
静态网页是纯粹HTML格式的网页,而使用AJAX动态加载网页的数据不一定会出现在HTML代码中。
对于静态网页,前面使用过的Requests库就十分好用,这次主要就是详细介绍它了。 -
Requests库使用前置工作(简),在笔记(1)里介绍过安装,至于在pycharm中使用库前的工作,笔记(3)里有介绍,简而言之是要安装库到项目里。这里再单独贴一下它的安装代码:
pip install requests
- Requests库 - 1 获取响应内容
一般像这样使用来返回一个response响应对象(req是变量名,或者说对象名):
req = requests.get(url, 其它参数(可选择))
- 3-1 响应对象的属性
使用get()函数会返回response响应对象,上面的例子就是req。在笔记(3)里只用到过它的text属性,它还有不少属性。
其中encoding是文本编码(这个指的是unicode、ascii这些编码方案), status_code是响应状态码,text会根据响应头部的字符编码进行解码生成文本(正式称呼字符串方式的响应体),content是字节方式的响应体,json是resquests内置的JSON解码器。
至于具体的代码,则是这个样子:
req.encoding
req.status_code
req.text
……
- 3-1-1 响应状态码status_code
其中响应状态码一般是指HTTP状态码(英语:HTTP Status Code),是用以表示网页服务器超文本传输协议响应状态的3位数字