python网络爬虫学习笔记（4）静态网页抓取（一）知识

最新推荐文章于 2022-12-14 23:13:38 发布

user_987654321

最新推荐文章于 2022-12-14 23:13:38 发布

阅读量221

点赞数

分类专栏： python 爬虫 Requests库

本文链接：https://blog.csdn.net/user_987654321/article/details/100783679

版权

静态网页是纯粹HTML格式的网页，而使用AJAX动态加载网页的数据不一定会出现在HTML代码中。
对于静态网页，前面使用过的Requests库就十分好用，这次主要就是详细介绍它了。
Requests库使用前置工作（简），在笔记（1）里介绍过安装，至于在pycharm中使用库前的工作，笔记（3）里有介绍，简而言之是要安装库到项目里。这里再单独贴一下它的安装代码：

pip install requests

req = requests.get(url, 其它参数（可选择）)

3-1 响应对象的属性
使用get()函数会返回response响应对象，上面的例子就是req。在笔记（3）里只用到过它的text属性，它还有不少属性。
其中encoding是文本编码（这个指的是unicode、ascii这些编码方案）， status_code是响应状态码，text会根据响应头部的字符编码进行解码生成文本（正式称呼字符串方式的响应体）,content是字节方式的响应体，json是resquests内置的JSON解码器。
至于具体的代码，则是这个样子：

req.encoding
req.status_code
req.text
……

3-1-1 响应状态码status_code
其中响应状态码一般是指HTTP状态码（英语：HTTP Status Code），是用以表示网页服务器超文本传输协议响应状态的3位数字

关注

专栏目录