python爬虫（1）——前置知识

最新推荐文章于 2022-04-17 17:32:11 发布

Reset Ran

最新推荐文章于 2022-04-17 17:32:11 发布

阅读量257

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_45857800/article/details/107526172

版权

4 篇文章 0 订阅

订阅专栏

HTTP 协议：全称是 HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收 HTML 页面的方法。服务器端口号是 80 端口。
HTTPS 协议：是 HTTP 协议的加密版本，在 HTTP 下加入了 SSL 层。（数据传输更加安全）服务器端口号是 443 端口。

当用户在浏览器的地址栏中输入一个 URL 并按回车键之后，浏览器会向 HTTP 服务器发送 HTTP 请求。HTTP 请求主要分为“Get”和“Post”两种方法。
当我们在浏览器输入 URL http://www.baidu.com 的时候，浏览器发送一个 Request 请求去获取 http://www.baidu.com 的 html 文件，服务器把 Response 文件对象发送回给浏览器。
浏览器分析 Response 中的 HTML，发现其中引用了很多其他文件，比如 Images 文件， CSS 文件，JS 文件。浏览器会自动再次发送 Request 去获取图片，CSS 文件，或者 JS 文件。
当所有的文件都下载成功后，网页会根据 HTML 语法结构，完整的显示出来了。

URL 是 Uniform Resource Locator 的简写，统一资源定位符。一个 URL 由以下几部分组成： scheme://host:port/path/?query-string=xxx&query-string=xxx#anchor

scheme：代表的是访问的协议，一般为 http 或者 https 以及 ftp 等。
host：主机名，域名，比如 www.baidu.com。
port：端口号。当你访问一个网站的时候，浏览器默认使用 80 端口。
path：查找路径。比如：www.jianshu.com/trending/now，后面的 trending/now 就是 path。
query-string：查询字符串，比如：www.baidu.com/s?wd=python，后面的 wd=python 就是查询字符串。
anchor：锚点，后台一般不用管，前端用来做页面定位的。(就相当于一个页面中有目录，目录的跳转就是锚点的作用) 在浏览器中请求一个 url，浏览器会对这个 url 进行一个编码。除英文字母，数字和部分符号外，其他的全部使用百分号+十六进制码值进行编码。

在 Http 协议中，定义了八种请求方法。这里介绍两种常用的请求方法，分别是 get 请求和 post 请求。

get 请求：一般情况下，只从服务器获取数据下来，并不会对服务器资源产生任何影响的时候会使用 get 请求。
post 请求：向服务器发送数据（登录）、上传文件等，会对服务器资源产生影响的时候会使用 post 请求。以上是在网站开发中常用的两种方法。并且一般情况下都会遵循使用的原则。但是有的网站和服务器为了做反爬虫机制，也经常会不按常理出牌，有可能一个应该使用 get 方法的请求就一定要改成 post 请求，这个要视情况而定。
更多的请求，可以参考：菜鸟教程

在 http 协议中，向服务器发送一个请求，数据分为三部分，第一个是把数据放在 url 中，第二个是把数据放在 body 中（在 post 请求中），第三个就是把数据放在 head 中。这里介绍在网络爬虫中经常会用到的一些请求头参数：

User-Agent：浏览器名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候，服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求，那么我们的 User-Agent 就是 Python，这对于那些有反爬虫机制的网站来说，可以轻易的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值，来伪装我们的爬虫。
Referer：表明当前这个请求是从哪个 url 过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的，那么就不做相关的响应。
Cookie：http 协议是无状态的。也就是同一个人发送了两次请求，服务器没有能力知道这两个请求是否来自同一个人。因此这时候就用 cookie 来做标识。一般如果想要做登录后才能访问的网站，那么就需要发送 cookie 信息了。

关注