反爬和应对措施

最新推荐文章于 2025-05-01 23:36:42 发布

细精本精

最新推荐文章于 2025-05-01 23:36:42 发布

阅读量1.6k

点赞数 18

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_48224700/article/details/144608296

版权

python爬虫专栏收录该内容

21 篇文章

订阅专栏

感谢大家的支持和关注，一起进步吧

爬虫那点事

前言
- 反爬手段‌：
- 应对措施
小结

前言

爬取数据时，拿不到想要的数据，问题只会是我们模拟浏览器的行为不够。

反爬手段‌：

想想吧

IP限制‌：根据IP访问频率限制爬虫‌。
User-Agent检测‌：检查请求头中的User-Agent字段识别爬虫‌。‌
验证码验证‌：通过验证码验证用户是否为真实用户‌。
登录限制‌：要求用户登录后才能访问某些数据‌。
数据伪装‌：对数据进行伪装或混淆，使爬虫难以提取‌。
请求参数校验‌：通过请求参数来反爬，如通过js生成请求参数‌。
‌Ajax异步传输‌：使用Ajax技术动态加载页面内容‌。
‌JavaScript渲染‌：通过JavaScript渲染页面内容，使爬虫无法直接获取‌。
‌自定义字体‌：使用自定义字体来隐藏或保护数据‌。 ‌
蜜罐陷阱‌：设置蜜罐陷阱来捕获爬虫IP‌。
‌延迟限制‌：对请求进行延迟处理，限制爬虫访问速度‌。 ‌
分布式爬虫识别‌：检测请求的分布式特征来识别爬虫‌。
数据采集监控‌：对数据采集行为进行监控，识别异常访问‌。 ‌
加密数据‌：对数据进行加密处理，使爬虫无法直接获取‌。
‌页面渲染‌：采用动态页面技术或特殊渲染方式，增加爬虫抓取难度‌。
‌Cookie验证‌：通过Cookie验证用户身份和会话状态‌。
‌反爬虫代理‌：使用反爬虫代理来检测和封禁爬虫‌。
‌图像识别‌：使用图像识别技术来验证用户行为，防止爬虫‌。
‌数据混淆‌：对数据进行混淆处理，使爬虫难以解析‌。
‌页面跳转‌：通过页面跳转来迷惑爬虫，使其难以追踪‌。
‌Headers信息校验‌：网站检查请求Headers中的其他字段，如Referer、Accept-Language等，来识别爬虫。
‌Cookies限制‌：通过Cookies验证用户身份和会话状态，限制爬虫访问。
‌频率限制‌：限制单位时间内的请求频率，防止爬虫短时间内大量请求数据。
动态请求参数‌：通过JavaScript动态生成请求参数，使爬虫难以模拟。
‌资源加载限制‌：限制爬虫访问某些资源，如图片、CSS、JavaScript等。
‌IP黑名单‌：将频繁访问的IP地址加入黑名单，直接封禁。
‌访问来源限制‌：限制只有来自特定来源的请求才能访问网站。
‌请求头伪装检测‌：通过检测请求头中的伪装信息，如User-Agent、Accept-Encoding等，来识别爬虫。
‌资源混淆‌：对网页资源进行混淆，如将CSS、JavaScript文件混淆，增加爬虫解析难度。
‌访问深度限制‌：限制爬虫访问网站的深度，防止爬虫抓取过多数据。
‌访问时间限制‌：限制爬虫在特定时间段内访问网站。
‌访问路径限制‌：限制爬虫访问特定路径或页面。
‌访问设备限制‌：限制只有来自特定设备的请求才能访问网站。
‌访问协议限制‌：限制只有使用特定协议的请求才能访问网站。
‌访问方式限制‌：限制只有使用特定方式（如GET、POST）的请求才能访问网站。
‌访问内容限制‌：限制爬虫访问网站上的特定内容或数据。
‌访问频率波动检测‌：通过检测请求频率的波动，识别爬虫行为。
‌访问模式识别‌：通过机器学习等技术识别爬虫访问模式，进行限制。
‌访问行为分析‌：通过分析用户的访问行为，如点击、滚动、停留时间等，识别爬虫行为。
‌访问日志分析‌：通过分析访问日志，识别异常访问行为，如大量相同请求、频繁请求等，进行限制。

应对措施

再用用吧

使用代理IP‌：搭建IP池，轮换代理IP以模拟正常用户行为‌。
‌伪装User-Agent‌：在请求头中添加或随机选择符合标准的User-Agent‌。
‌验证码识别‌：使用图像识别技术或第三方服务识别验证码‌。
‌模拟登录‌：模拟用户登录过程，获取有效的Cookie进行访问‌。
‌数据解析与还原‌：分析并还原被伪装或混淆的数据‌。
‌分析Ajax请求‌：找到Ajax请求的URL和参数，模拟请求获取动态加载的数据‌。
‌执行JavaScript‌：使用Selenium等工具模拟浏览器环境，执行JavaScript代码获取渲染后的页面内容‌。
‌字体识别与还原‌：分析自定义字体的映射关系，将混淆后的数据还原为真实信息‌。
‌避免蜜罐陷阱‌：检测并避免陷入蜜罐陷阱，或通过代理IP分散请求降低风险‌。
‌合理设置请求间隔‌：控制请求频率和间隔时间，避免触发反爬机制‌。
‌使用多线程或异步请求‌：提高爬虫效率，同时避免单线程过高频率访问被封‌。
‌模拟用户行为‌：如模拟点击、滚动等用户行为，增加爬虫的真实性‌。
‌使用爬虫管理工具‌：如Scrapy等，自带反爬机制，可自动处理部分反爬问题‌。
‌数据清洗与验证‌：对抓取到的数据进行清洗和验证，剔除无效或错误数据‌。
‌分布式爬虫策略‌：使用分布式爬虫策略，分散请求压力，降低被封风险‌。
‌监控与调整‌：实时监控爬虫状态，根据反爬策略调整爬虫策略‌。
‌使用代理服务器‌：通过代理服务器访问目标网站，隐藏真实IP‌。
‌模拟不同网络环境‌：如模拟不同地区的网络环境，增加爬虫的多样性‌。
‌使用机器学习识别验证码‌：对于复杂验证码，可使用机器学习技术进行识别‌。
‌定期更新爬虫策略‌：根据网站反爬策略的变化，定期更新爬虫策略，保持爬虫的有效性‌。
‌完善请求Headers‌：添加或修改请求Headers中的相关字段，使其与正常用户请求一致。
‌携带有效Cookies‌：模拟用户登录或获取有效Cookies，并在请求中携带。
‌合理控制请求频率‌：避免短时间内大量请求数据，模拟正常用户访问行为。
‌动态获取请求参数‌：分析并模拟请求参数的生成逻辑，动态获取并应用。
‌解析混淆资源‌：对混淆后的资源进行解析和还原，获取所需数据。
‌使用高匿代理‌：使用高匿代理隐藏真实IP地址，避免被加入黑名单。
‌模拟特定来源‌：在请求Headers中添加或修改Referer等字段，模拟来自特定来源的请求。
‌绕过访问限制‌：通过修改请求路径、参数等方式，绕过网站的访问限制。
‌分散请求压力‌：使用分布式爬虫策略，将请求分散到多个IP地址和用户代理上。
‌模拟用户行为‌：如模拟点击、滚动、停留时间等用户行为，增加爬虫的真实性。
‌定期更换IP‌：定期更换代理IP地址，避免被长期封禁。
‌使用反反爬虫工具‌：如Selenium、Pyppeteer等，模拟浏览器环境，处理动态请求参数和JavaScript渲染等问题。
‌分析并适应反爬策略‌：定期分析网站的反爬策略，并调整爬虫策略以适应。

小结

简单爬虫需要掌握的常见反爬现象，后续还有js逆向，app逆向，通过拿到源代码分析，内部的加密，动态数据生成模拟浏览器的参数去达到我们想要的效果。
看到这里，相信你一定会有所收获。