爬虫：自动搜索爬取平台搜索数据，anti_content怎么破

最新推荐文章于 2024-09-03 18:17:09 发布

老猫coder

最新推荐文章于 2024-09-03 18:17:09 发布

阅读量828

点赞数

分类专栏： python爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_39071185/article/details/122483117

版权

本文探讨了如何应对网站如天猫、拼多多对爬虫的封杀，特别是拼多多前端的anti_content参数问题。通过使用pyautogui库，模拟复制、粘贴、滚动和点击等操作，绕过动态参数限制。虽然这种方法兼容性需调整且速度较慢，但能避免处理不断变化的anti_content。建议使用屏幕分辨率比例来提升坐标点的适用性，并结合Fiddler进行请求过滤和数据保存。

摘要由CSDN通过智能技术生成

声明：本文仅用于技术交流。

很多网站对爬虫封杀的很厉害，比如说天猫比如说拼多多，去抓取拼多多的时候，拼多多的前端anti_content参数我相信很多人都绕不过去，anti_content并且这个参数代码更改频繁，没有一定的功力很难破解。

本文介绍利用pyautogui模拟人操作去处理这种限制，无需再去处理anti_content这些参数。通过找到坐标点，然后模拟复制粘贴滚动点击等动作达到我们的目的。这些pyautogui都帮我们封装好了，我们要做的就是把整个流程代码化而已。相当的方便。

这里有个找坐标点的小技巧，推荐使用微信截图，截图的时候可以实时看到坐标点的位置。

要先说明的事，每个电脑的分辨力不一样，所以找到的点不一定适应所有电脑，推荐首先获取整个屏幕大小，然后按比例去处理坐标点的关系，可以提升程序的兼容性。这里有一段我写过的代码，仅供参考。

#从移动端获取
import random
import pyautogui
import time
import MySQLdb
import pyperclip

def scroll():
    ino = 1
    while ino % 30 != 0:
        pyautogui.scroll(-random.randint(150, 180), 296, screenHeight / 2)
        time.sleep(0.1)
        ino = ino + 1
        print(ino)

def sea