Scrapy的中间件Downloader Middleware实现User-Agent随机切换

最新推荐文章于 2020-11-01 12:11:25 发布

Corleone Yao

最新推荐文章于 2020-11-01 12:11:25 发布

阅读量142

点赞数

分类专栏： Scrapy python-爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_43544005/article/details/104168246

版权

python-爬虫同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

Scrapy

4 篇文章 0 订阅

订阅专栏

爬虫的本质就是“抓取”第二方网站中有价值的数据，因此，每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如通过 User-Agent 请求头验证是否为浏览器。
为了伪装自己的爬虫程序。我们可以构造请求头，来初步伪装。
首先安装包 ‘fake_useragent’

在middlewares.py中导入所需的库

from fake_useragent import UserAgent

删去middewares原有代码，写上新的类UserAgentMiddleware
我们可以查看自己scrapy框架里的源码作为参考。

from fake_useragent import UserAgent
class UserAgentMiddleware:
# -----------------------------------设置随机用户代理--------------------------------------------------------------
        def process_request(self, request,spider):
            request.headers.setdefault(b'User-Agent', UserAgent().random)

修改setting.py

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#调高优先级343
DOWNLOADER_MIDDLEWARES = {
   'try.middlewares.UserAgentMiddleware': 343
}

测试网址选择https://httpbin.org/get

# -*- coding: utf-8 -*-
import scrapy


class HttpbinSpider(scrapy.Spider):
    name = 'httpbin'
    allowed_domains = ['httpbin.org']
    start_urls = ['https://httpbin.org/get']

    def parse(self, response):
        print(response.text)

结果

两次UA都不一样，测试成功。

Corleone Yao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy的中间件Downloader Middleware实现User-Agent随机切换

爬虫的本质就是“抓取”第二方网站中有价值的数据，因此，每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如通过 User-Agent 请求头验证是否为浏览器
复制链接

扫一扫

专栏目录