一、为什么要学习计算机网络
如果不懂得计算机网络,在学习爬虫之后遇到了问题,不知道如何去分析这些问题,也就是作为爬虫工程师的内功,就需要对底层的一些协议了解,再去分析爬虫中所遇到的网络问题等细节问题的时候,就知道它的一个原理是什么,就知道如何去排查这些问题。
比如说对HTTP协议比较了解,就可以模拟一个登录的原理。
当遇到反爬怎么办呢,反爬实际上也是借助于计算机网络的一些知识,当我们在做反爬的时候,也需要基于协议来做很多策略,当我们懂得这些底层的协议之后,那反爬的策略实际上都逃不过这些协议,所以学习计算机网络有助于去解决目标网站的一个反爬的问题。
当了解计算机网络一些底层协议,就可以去抓包分析,抓包分析完之后,自己就知道能不能去爬取目标的数据。
二、什么是网络协议
作为爬虫工程师,计算机网络里主要学习的就是网络协议,
网络协议特指的是计算机网络中互相通信的对等实体之间交换信息时所必须遵守的规则的集合。
不同终端设备的数据转发是通过网络协议来完成的,整个互联网可以说是完全由协议来维持的。
给大家推荐两本有关计算机网络书,大家可以看一下,都比较经典。
计算机网络(自顶向下的方法。) TCP/IP协议族。
三,完整的网络请求
访问目标网站—