猫眼爬虫三-终极篇：破解滑动验证，动态字体加密

最新推荐文章于 2024-08-06 16:40:55 发布

水木工南

最新推荐文章于 2024-08-06 16:40:55 发布

阅读量6.7k

点赞数 2

分类专栏：爬虫学习文章标签： python

本文链接：https://blog.csdn.net/qq_42105477/article/details/104105452

版权

本文详细介绍了如何破解猫眼网站的滑动验证和动态字体加密反爬机制。首先，针对滑动验证，通过人工验证通过后，可以继续爬取。接着，对于字体加密，利用OCR本地文字识别，通过tesseract进行动态识别并替换源代码中的字体编码，从而获取所需数据。虽然识别过程存在精度和时间成本，但提供了完整的解决思路和代码库获取方式。

摘要由CSDN通过智能技术生成

前面两节我们对猫眼网站进行了爬取，中间，我们会遇到各种反爬虫，包括滑动验证和字体加密等等，今天，我们就对这些反爬虫进行一一破解，实现猫眼网站的全信息爬取！

1、滑动验证：滑动验证类似于极验证（滑块验证，电脑的B站登陆要滑动的哪个），但是原理不一样，目前来说，12306的相关抢票的脚本已经实现了自动加载滑块滑动，但大多数情况还得手动，在这里也是。
破解流程：

1、先尝试着获取数据，如果遇到爬取链接与实际链接不一致，如下图：
在这里插入图片描述
即爬取的链接和实际链接不一致时，尤其是出现了类似于：
https://verify.meituan.com/v2/web/general_page?action=spiderindefence&requestCode=350941fd3ea345bd99f8e17f7f99f2f5&platform=1000&adaptor=auto&succCallbackUrl=https%3A%2F%2Foptimus-mtsi.meituan.com%2Foptimus%2FverifyResult%3ForiginUrl%3Dhttp%253A%252F%252Fmaoyan.com%252Ffilms%252F224973
这样的链接，那么就是被反爬虫了，不需要慌，只要点击该链接，