爬虫01

爬虫的分类

通用爬虫:
抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫:
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
增量式爬虫:
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬与反爬

我们要知道,服务器那边的人又不傻,不会白白让你把他们辛辛苦苦整理出来的东西全都给爬走喽,所以说有爬的人,就有反爬的人。

比如说你爬了人家,人家知道你是怎么爬的就针对你爬的方式想出了办法反爬,你又根据别人反爬的方式想出了办法继续爬,别人又根据你继续爬的方式想出了方法反爬,你又根据别人新的反爬的方式想出了新的办法继续爬……
道高一尺魔高一丈,所以不要怕!我们无论遇到什么反爬,微笑着面对他,奥利给!
大多时候都是爬的一方占优势,毕竟服务器如果分太多精力对付你,那就得不偿失了,而你用了那么多方法去一层一层爬出来,效率也会大打折扣,属于两边都可以接受吧。

robots.txt协议

关于这个协议,只要知道是君子协议就好啦。
有些网站会在robots.txt里标注哪些数据是可以爬的,哪些数据是不可以爬的。

常用请求头信息(先知道有这个东西)

User-Agent:请求载体的身份标识(伪装身份的道具)

在这里插入图片描述

Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息(同上,都要通过抓包工具查看)

Content-Type:服务器响应回客户端的数据类型

在这里插入图片描述

加密方式(大致知道就好)

对称秘钥加密
    你给了我一份文件,同时给了我密码,我可以直接打开看
非对称秘钥加密
    你给了我一份文件,同时给了我公共密码,我需要用公共密码和我知道的私人密码一起解开
证书秘钥加密
    找个靠谱的中介
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值