爬虫的分类
通用爬虫:
抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫:
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
增量式爬虫:
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。
爬与反爬
我们要知道,服务器那边的人又不傻,不会白白让你把他们辛辛苦苦整理出来的东西全都给爬走喽,所以说有爬的人,就有反爬的人。
比如说你爬了人家,人家知道你是怎么爬的就针对你爬的方式想出了办法反爬,你又根据别人反爬的方式想出了办法继续爬,别人又根据你继续爬的方式想出了方法反爬,你又根据别人新的反爬的方式想出了新的办法继续爬……
道高一尺魔高一丈,所以不要怕!我们无论遇到什么反爬,微笑着面对他,奥利给!
大多时候都是爬的一方占优势,毕竟服务器如果分太多精力对付你,那就得不偿失了,而你用了那么多方法去一层一层爬出来,效率也会大打折扣,属于两边都可以接受吧。
robots.txt协议
关于这个协议,只要知道是君子协议就好啦。
有些网站会在robots.txt里标注哪些数据是可以爬的,哪些数据是不可以爬的。
常用请求头信息(先知道有这个东西)
User-Agent:请求载体的身份标识(伪装身份的道具)
Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息(同上,都要通过抓包工具查看)
Content-Type:服务器响应回客户端的数据类型
加密方式(大致知道就好)
对称秘钥加密
你给了我一份文件,同时给了我密码,我可以直接打开看
非对称秘钥加密
你给了我一份文件,同时给了我公共密码,我需要用公共密码和我知道的私人密码一起解开
证书秘钥加密
找个靠谱的中介