针对刚学习爬虫的小白，看完就懂

最新推荐文章于 2023-05-30 09:25:19 发布

XUchenmp

最新推荐文章于 2023-05-30 09:25:19 发布

阅读量2k

点赞数 17

分类专栏： python基础学习文章标签：爬虫

本文链接：https://blog.csdn.net/XUchenmp/article/details/115895912

版权

python基础学习专栏收录该内容

6 篇文章 3 订阅

订阅专栏

前言

写了那个图书馆预约脚本发现吸引了很多小白，然后发现他们学了爬虫，但是可能并不知道爬虫的本质和原理，可能看完视频或者教程觉得自己已经懂了，然后换了一个网站发现就懂爬教程里的那一个。因为写爬虫难的不是代码的实现，写一些小爬虫代码能有多难？不会就百度嘛。难的主要是数据包的分析，看完这一篇基本能让你会爬取所有的小网站了。

爬虫的实质

我们在浏览器中点击、输入等操作可以简化为下图。
以下是一个简化的登录流程图。
在这里插入图片描述这是一个简化图，但是可以知道，用户在浏览器上做什么操作实质上都是浏览器向服务器发送数据包、接收数据包。
无论是爬虫（例如：爬取小说）还是自动化脚本（例如：图书馆抢座）的实质都是发送数据包、接收数据包，如图：可以看到，登录的话我们只需要发送一个关键的数据包就可以，不需要那么多没用的数据包。当然这是简化版，有一些网站登录可不止发送一个数据包，这就需要自己抓包、发包测试分析了。
看到这可能有些人已经按耐不住内心的激动去找个网站试试了，先别急，不然一会又回来了多少有点尴尬。