Python3 网络爬虫实战记录笔记1：http的请求过程

最新推荐文章于 2023-12-31 13:44:39 发布

最新推荐文章于 2023-12-31 13:44:39 发布

阅读量286

点赞数

分类专栏： python爬虫笔记

本文链接：https://blog.csdn.net/qq_26261381/article/details/81091351

版权

3 篇文章 0 订阅

订阅专栏

以下所有内容均源于崔庆才大牛 --《Python3 网络爬虫开发实战》一书。

今天是我博客首开，简单记点知识，便于日后反补。

右击chrome浏览器，选择 ‘检查’ 一项，然后访问百度，即可在右方的network里查看发生了怎样的网络请求，这里太小，可以切换到浏览器下方。然后即可在network里看到一个个条目，每个条目都有具体的属性，点击这个条目可以看到更详细的信息。

单击该条目，包括三部分：general，Response Headers （响应头），Request Headers（请求头）。

Accept：请求报头域，用于指定客户端可以接受那些信息。
Accept-Language：指定客户端可以接受的语言类型。
Accept-Encoding：指定客户端可以接受的编码（gzip，sdch，deflate。。。。）
HOST：用于请求资源的主机IP及端口号，内容是请求的URL原始的服务器或网关（不是很懂）的位置。
Cookie：一般是存储在用户本地的保存用户账户信息的文件，比如刷新的时候，你会发现自己登陆的账户没有退出，这就是Cookie的功劳。
Referer：此内容是来标记这个请求是从哪个页面发过来的，服务器可以拿这一信息做：来源统计或者防盗链等等。
User-Agent：简称UA，特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装成浏览器；如果不加可能会被识别出为爬虫。
Content-Type：也叫互联网媒体类型，或者MIME类型。在http的消息头中，用来表示具体请求的媒体信息，如text/html代表html类型、image/gif代表gif图片、application/json代表JSON类型。更多的可以查看链接。