“21天好习惯”第一期- 11 反爬虫机制详解（3）

GinFounder

于 2021-11-02 21:29:04 发布

阅读量123

点赞数 1

分类专栏：爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_52862895/article/details/121109667

版权

9 篇文章 1 订阅

订阅专栏

总结

有些时候headers伪装什么的都做足了，可你还是不能如愿以偿的获得网页源码，要么缺，要么给你一堆毫不相关的东西，要么干脆让你红掉。
这说明要点不是伪不伪装的问题了，而是如何去解读网页的防爬机制从而推出解决方法，这就要求比较高的观察和分析能力了。

就我目前遇到的主要有：

随机校验码：网页生成随机码，并要求你将其提交才接受你的请求（多用在登录验证中）。——这种校验码通常藏在网页源码中，先取再交是策略。
无序网址：网址后跟着一大串看不出规律的东西。——跟这种东西是没话说的，直接上selenium。
加密/杂乱的源码：你知道你要的东西就在那里，但是不知道怎样提取出来。——推理解谜，看脑子好不好使了。
动态加载：需要和页面交互才能获取更多信息，但是爬虫没法和它交互啊。——直接上selenium/手动捉包分析出目标链接
ajax技术：异步加载，网页内容分次加载，用爬虫只能得到第一次发出的html，导致信息不全。——上selenium/手动捉包分析出目标连接

补充：
selenium模块，模拟浏览器，强是强但是缺点是慢。
其实动态加载是为了方便用户点哪看哪的，但这也加大了爬虫的难度，因为很多信息因此被隐藏了起来。

关注

专栏目录