爬虫01

最新推荐文章于 2024-09-11 18:01:31 发布

南南不胖

最新推荐文章于 2024-09-11 18:01:31 发布

阅读量59

点赞数

分类专栏： python 文章标签： python

原文链接：https://blog.csdn.net/BcXbHello/article/details/110136379

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

爬虫的分类

通用爬虫：
抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫：
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
增量式爬虫：
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬与反爬

我们要知道，服务器那边的人又不傻，不会白白让你把他们辛辛苦苦整理出来的东西全都给爬走喽，所以说有爬的人，就有反爬的人。

比如说你爬了人家，人家知道你是怎么爬的就针对你爬的方式想出了办法反爬，你又根据别人反爬的方式想出了办法继续爬，别人又根据你继续爬的方式想出了方法反爬，你又根据别人新的反爬的方式想出了新的办法继续爬……
道高一尺魔高一丈，所以不要怕！我们无论遇到什么反爬，微笑着面对他，奥利给！
大多时候都是爬的一方占优势，毕竟服务器如果分太多精力对付你，那就得不偿失了，而你用了那么多方法去一层一层爬出来，效率也会大打折扣，属于两边都可以接受吧。

robots.txt协议

关于这个协议，只要知道是君子协议就好啦。
有些网站会在robots.txt里标注哪些数据是可以爬的，哪些数据是不可以爬的。

常用请求头信息（先知道有这个东西）

User-Agent：请求载体的身份标识（伪装身份的道具）

在这里插入图片描述

Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息（同上，都要通过抓包工具查看）

Content-Type：服务器响应回客户端的数据类型

在这里插入图片描述

加密方式（大致知道就好）

对称秘钥加密
    你给了我一份文件，同时给了我密码，我可以直接打开看
非对称秘钥加密
    你给了我一份文件，同时给了我公共密码，我需要用公共密码和我知道的私人密码一起解开
证书秘钥加密
    找个靠谱的中介

南南不胖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录