python网络爬虫1——Requests库获取页面

最新推荐文章于 2024-07-21 02:54:02 发布

我曾仗剑走天涯

最新推荐文章于 2024-07-21 02:54:02 发布

阅读量1.4k

点赞数

分类专栏：《python网络爬虫与信息提取》课程笔记（嵩天）

本文链接：https://blog.csdn.net/th839582740/article/details/101596632

版权

本文详细介绍了Python的Requests库，包括安装、常用方法如requests.get()，Response对象属性，爬取网页的通用代码框架，以及HTTP协议和各种HTTP方法。重点讲解了requests.request()方法及可选参数，帮助初学者掌握网络爬虫基础。

摘要由CSDN通过智能技术生成

第一章 Requests库

相关介绍：http://www.python-requests.org

cmd中，运行命令：pip install requests

r = requests.get(url) 获得网页

requests.get(url) 构造了一个向服务器请求资源的Request对象，返回一个包含服务器资源的Response对象给r

完整函数：requests.get( url, params = None, **kwargs),后面两个参数可选

r.status_code	HTTP请求的返回状态，200成功，其他失败
r.text	url对应的页面内容，以字符串形式呈现
r.encoding	网页的编码方式，从网页header中猜测出来的编码方式
r.apparent_encoding	备用编码方式，从网页内容中分析出来
r.content	url对应的页面内容，以二进制形式呈现

注： r.encoding：如果header中没有charset字段，则认为编码方式为ISO-8859-1，但这个编码并不能解析中文