python反爬技术之User-Agent池

本文探讨了Python如何应对基于Headers的反爬虫策略,特别是User-Agent和Referer字段的检测。建议通过建立User-Agent池,模拟浏览器行为以避免被识别为爬虫。同时,介绍了编写类来管理User-Agent池的方法,并鼓励读者关注相关技术分享平台以持续学习。
摘要由CSDN通过智能技术生成

基于Headers的反爬虫,从请求头进行反爬是比较常见的措施,大部分网站会对Headers中的User-Agent和Referer字段进行检测。突破方法就是根据浏览器的正常访问请求头对爬虫的请求头进行修改,尽可能的和浏览器保持一致

下面是编写类来存储user-agent池的功能,下次可以直接调用

class HtmlDownloader(object):
    def __init__(self):
        self.url_manager = UrlManager()
        USER_AGENT = random.choice([
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值