python反爬技术之User-Agent池

最新推荐文章于 2024-08-12 15:00:17 发布

辉辉咯

最新推荐文章于 2024-08-12 15:00:17 发布

阅读量2.2k

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/qq_41020281/article/details/79574847

版权

本文探讨了Python如何应对基于Headers的反爬虫策略，特别是User-Agent和Referer字段的检测。建议通过建立User-Agent池，模拟浏览器行为以避免被识别为爬虫。同时，介绍了编写类来管理User-Agent池的方法，并鼓励读者关注相关技术分享平台以持续学习。

摘要由CSDN通过智能技术生成

基于Headers的反爬虫，从请求头进行反爬是比较常见的措施，大部分网站会对Headers中的User-Agent和Referer字段进行检测。突破方法就是根据浏览器的正常访问请求头对爬虫的请求头进行修改，尽可能的和浏览器保持一致

下面是编写类来存储user-agent池的功能，下次可以直接调用

class HtmlDownloader(object):
    def __init__(self):
        self.url_manager = UrlManager()
        USER_AGENT = random.choice([
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5