无敌python爬虫教程学习笔记（三）

yyysec

已于 2022-02-27 08:25:13 修改

阅读量300

点赞数 9

文章标签：爬虫 python 学习

于 2022-02-23 21:33:53 首次发布

本文链接：https://blog.csdn.net/qq_53571321/article/details/123097367

版权

系列文章目录

无敌python爬虫教程学习笔记（一）
无敌python爬虫教程学习笔记（二）
无敌python爬虫教程学习笔记（三）
无敌python爬虫教程学习笔记（四）

本文目录

系列文章目录
前言
web请求过程剖析
HTTP协议

前言

web请求过程全面剖析，理解数据请求返回的工作原理。
了解HTTP协议

web请求过程剖析

#1、服务器渲染：在服务器那边直接把搜索的数据和HTML整合在一起，统一返回给浏览器。
#在页内源代码中可以看到数据
#2、客户端渲染：第一次请求只有一个HTML框架，第二次请求拿到数据，进行整合然后展示数据。
#在页内源代码中看不到数据




#熟练使用浏览器抓包工具F12

分为两种，我们要模拟浏览器去爬取数据，先搞定浏览器的请求返回方式，简单理解就是返回页面中是否有数据，并且要熟练运用浏览器自带的抓包工具F12或者检查等，找到自己所需的数据。

HTTP协议

超文本传输协议（Hyper Text Transfer Protocol，HTTP）是一个简单的请求-响应协议，它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII形式给出；而消息内容则具有一个类似MIME的格式。这个简单模型是早期Web成功的有功之臣，因为它使开发和部署非常地直截了当。

简介

万维网WWW（World Wide Web）发源于欧洲日内瓦量子物理实验室CERN，正是WWW技术的出现使得因特网得以超乎想象的速度迅猛发展。这项基于TCP/IP的技术在短短的十年时间内迅速成为已经发展了几十年的Internet上的规模最大的信息系统，它的成功归结于它的简单、实用。在WWW的背后有一系列的协议和标准支持它完成如此宏大的工作，这就是Web协议族，其中就包括HTTP超文本传输协议。
在1990年，HTTP就成为WWW的支撑协议。当时由其创始人WWW之父蒂姆·伯纳斯·李（Tim Berners-Lee）提出，随后WWW联盟（WWW Consortium）成立，组织了IETF（Internet Engineering Task Force）小组进一步完善和发布HTTP。
请添加图片描述

HTTP是应用层协议，同其他应用层协议一样，是为了实现某一类具体应用的协议，并由某一运行在用户空间的应用程序来实现其功能。HTTP是一种协议规范，这种规范记录在文档上，为真正通过HTTP进行通信的HTTP的实现程序。
HTTP是基于B/S架构进行通信的，而HTTP的服务器端实现程序有httpd、nginx等，其客户端的实现程序主要是Web浏览器，例如Firefox、Internet Explorer、Google Chrome、Safari、Opera等，此外，客户端的命令行工具还有elink、curl等。Web服务是基于TCP的，因此为了能够随时响应客户端的请求，Web服务器需要监听在80/TCP端口。这样客户端浏览器和Web服务器之间就可以通过HTTP进行通信了。

工作原理

HTTP是基于客户/服务器模式，且面向连接的。典型的HTTP事务处理有如下的过程：
（1）客户与服务器建立连接；
（2）客户向服务器提出请求；
（3）服务器接受请求，并根据请求返回相应的文件作为应答；
（4）客户与服务器关闭连接。
客户与服务器之间的HTTP连接是一种一次性连接，它限制每次连接只处理一个请求，当服务器返回本次请求的应答后便立即关闭连接，下次请求再重新建立连接。这种一次性连接主要考虑到WWW服务器面向的是Internet中成千上万个用户，且只能提供有限个连接，故服务器不会让一个连接处于等待状态，及时地释放连接可以大大提高服务器的执行效率。
HTTP是一种无状态协议，即服务器不保留与客户交易时的任何状态。这就大大减轻了服务器记忆负担，从而保持较快的响应速度。HTTP是一种面向对象的协议。允许传送任意类型的数据对象。它通过数据类型和长度来标识所传送的数据内容和大小，并允许对数据进行压缩传送。当用户在一个HTML文档中定义了一个超文本链后，浏览器将通过TCP/IP协议与指定的服务器建立连接。
HTTP支持持久连接，在HTTP / 0.9和1.0中，连接在单个请求/响应对之后关闭。在HTTP / 1.1中，引入了保持活动机制，其中连接可以重用于多个请求。这样的持久性连接可以明显减少请求延迟，因为在发送第一个请求之后，客户端不需要重新协商TCP 3-Way-Handshake连接。另一个积极的副作用是，通常，由于TCP的缓慢启动机制，连接随着时间的推移而变得更快。
该协议的1.1版还对HTTP / 1.0进行了带宽优化改进。例如，HTTP / 1.1引入了分块传输编码，以允许流传输而不是缓冲持久连接上的内容。HTTP流水线进一步减少了延迟时间，允许客户端在等待每个响应之前发送多个请求。协议的另一项附加功能是字节服务，即服务器仅传输客户端明确请求的资源部分。
从技术上讲是客户在一个特定的TCP端口（端口号一般为80）上打开一个套接字。如果服务器一直在这个周知的端口上倾听连接，则该连接便会建立起来。然后客户通过该连接发送一个包含请求方法的请求块。
HTTP规范定义了9种请求方法，每种请求方法规定了客户和服务器之间不同的信息交换方式，常用的请求方法是GET和POST。服务器将根据客户请求完成相应操作，并以应答块形式返回给客户，最后关闭连接。

状态消息

1xx:信息

在这里插入图片描述

2xx：成功

在这里插入图片描述

3xx：重定向

在这里插入图片描述

4xx：客户端错误

在这里插入图片描述

5xx：服务器错误

在这里插入图片描述

HTTP请求

1、请求行 -> 请求方式 请求url地址 协议
2、请求头 -> 放一些服务器要使用的附加信息
3、
4、请求体 -> 一般放一些请求参数

HTTP响应

1、状态行 -> 协议 状态码
2、响应头 -> 放一些客户端需要的附加信息
3、
4、响应体 -> 一般放一些请求参数

爬虫所需注意

请求头中最常见的一些重要内容：

User-Agent :请求载体的身份标识(用啥发送的请求)
Referer: 防盗链(这次请求是从哪个页面来的?反爬会用到）
cookie: 本地字符串数据信息(用户登录信息，反爬的token)

响应头中一些重要的内容:

cookie: 本地字符串数据信息(用户登录信息，反爬的token)
各种神奇的莫名其妙的字符串(这个需要经验了，一般都是token字样，防止各种攻击和反爬)

请求方式

GET
显示提交
POST
隐式提交
两者需要区分。不过对与爬虫来说区别不大，有兴趣的朋友可以自行了解。

yyysec

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
6
评论
无敌python爬虫教程学习笔记（三）

系列文章目录前言web请求过程剖析HTTP协议简介工作原理状态消息1xx:信息2xx：成功3xx：重定向4xx：客户端错误5xx：服务器错误HTTP请求HTTP响应爬虫所需注意请求方式前言web请求过程全面剖析，理解数据请求返回的工作原理。了解HTTP协议
复制链接

扫一扫