python爬虫中怎么写反爬虫

最新推荐文章于 2024-04-19 08:02:59 发布

qq^^614136809

最新推荐文章于 2024-04-19 08:02:59 发布

阅读量551

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/D0126_/article/details/128109608

版权

1、通过UA判断：UA是UserAgent，是要求浏览器的身份标志。
UA是UserAgent，是要求浏览器的身份标志。反爬虫机制通过判断访问要求的头部没有UA来识别爬虫，这种判断方法水平很低，通常不作为唯一的判断标准。反爬虫非常简单，可以随机数UA。
2、通过Cookie判定：Cookie是指会员帐户密码登录验证
Cookie是指会员帐户密码登录验证，通过区分该帐户在短时间内爬行的频率来判断。这种方法的反爬虫也很困难，需要多账户爬行。
3、通过访问频率判定
爬虫类经常在短时间内多次访问目标网站，反爬虫类机制可以通过单个IP访问的频率来判断是否是爬虫类。这样的反爬方式难以反制，只能通过更换IP来解决。
4、通过验证码判定
验证码是反爬虫性价比高的实施方案。反爬虫通常需要访问OCR验证码识别平台，或者使用TesseractOCR识别，或者使用神经网络训练识别验证码。
5、动态性页面加载
使用动态加载的网站通常是为了方便用户点击和查看，爬虫无法与页面互动，这大大增加了爬虫的难度。
一般情况下，用户对网站进行信息爬取时，都要受到“爬虫”的约束，使用户在获取信息时受到一定的阻碍
1、通过Headers反爬虫：
从用户请求的Headers反爬虫是最常见的反爬虫策略。可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。
初级阶段
1、判定User-Agent 是否正常
2、cookie陷阱【每次请求需要携带cookie，cookie不对证明不是一个人】
3、ip限制访问【一个ip在单位时间内只能访问多少次】
4、如果登录的话就用户名密码呗【单位时间内访问多少次，和ip一起使用】
5、ip访问频率快一点感觉像爬虫的给他重定向到验证码页面，图片的像12306那种恶心人的，如果这个ip没办法做或者直接断掉了，记录他断掉次数，高于多少，封ip
6、页面标签陷阱，本该没办法直观看到的或者没办法直观点击的标签，被触发很明显不是个好人或者活人封他