Python爬虫（ROBOTS协议和Request使用入门）

最新推荐文章于 2024-08-24 16:34:12 发布

LateNight_LL

最新推荐文章于 2024-08-24 16:34:12 发布

阅读量253

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/LateNight_LL/article/details/116835411

版权

ROBOTS协议
Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
举例：https://www.baidu.com/robots.txt
在这里插入图片描述

Request使用入门

Urlib
Urlib是Python内置的HTTP请求库。
Request
Request表示来自客户端的一次请求，它有请求行，请求头，和请求实体。

为什么学习request，而不是urlib？
·Request的底层实现就是urlib
·Request在python2和pyhton3中通用，方法完全一样，但对urlib来说却不一样
·Request简单易用
·Request能够自动帮助我们解压（gzip压缩的等）网页内容

Request的作用

发送网络请求，返回响应数据
中文文档API：https://docs.python-requests.org/zh_CN/latest/index.html

Request的使用

·一开始要导入Request模块：import requests（编译器需要提前安装request）
在这里插入图片描述

·然后尝试获取某个网页（百度为例）
在这里插入图片描述
·现在我们获得一个名为r的Response对象。（可以尝试输出它）

Requests中获取网页信息时解决编解码的方法

在我们获取网页信息时，可能因编解码方式的不同从而导致信息乱码
在这里插入图片描述
·response.content(结果为二进制类型，可用字符转换来转换类型即：response.content.decode())
·response.content.decode(“gbk”)
·response.encode=“编码方式” + response.text