设置动态UA

本文介绍了如何配置Scrapy爬虫,包括在Spider中设置起始URL、在settings.py中添加请求头,以及在middleware.py中使用fake_useragent库生成随机User-Agent,以避免被目标网站识别为爬虫。最后通过命令行启动爬虫进行抓取。
摘要由CSDN通过智能技术生成

第一步

在爬虫py配置基本信息

class HttpbinSpider(scrapy.Spider):
    name = 'httpbin'
    allowed_domains = ['httpbin.org']
    start_urls = ['http://httpbin.org/get']

    def parse(self, response):
        print('===============================================')
        print(response.text)
        print('===============================================')
        yield scrapy.Request(self.start_urls[0],dont_filter=True)

第二步

在settings.py加入头文件

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

第三步

在middlewaregs.py  配置爬虫方法  需要手动安装   pip install fake_useragent

from fake_useragent import UserAgent
class HttpuaDownloaderMiddleware:

    def process_request(self, request, spider):
        request.headers['User-Agent']=UserAgent().random
        return None

最后一步在启动文件启动

from scrapy import cmdline
cmdline.execute('scrapy crawl httpbin'.split(' '))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值