Scrapy下载器中间件用法示例

最新推荐文章于 2024-07-12 19:06:42 发布

weixin_30855099

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量100

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/sanduzxcvbnm/p/10345641.html

版权

1.爬虫文件httpbin.py

# -*- coding: utf-8 -*-
import scrapy

class HttpbinSpider(scrapy.Spider):
    name = 'httpbin'
    allowed_domains = ['httpbin.org']
    start_urls = ['http://httpbin.org/get']

    def parse(self, response):
        self.logger.debug(response.text)
        self.logger.debug('Status Code: ' + str(response.status))

2.中间件文件middlewares.py

不在settings.py文件中设置请求头。而是在下载器中间件中，也就是在请求requests之前加上请求头

另外在response响应后更改状态码

import random
from scrapy import Request

class RandomUserAgentMiddleware():
    def __init__(self):
        self.user_agents = [
            'Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)',
            'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2',
            'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1'
        ]
    
    def process_request(self, request, spider):
        request.headers['User-Agent'] = random.choice(self.user_agents)
    
    def process_response(self, request, response, spider):
        response.status = 201
        return response

3.配置文件settings.py

在配置文件中启用该配置

DOWNLOADER_MIDDLEWARES = {
   'scrapydownloadertest.middlewares.RandomUserAgentMiddleware': 543,
}

转载于:https://www.cnblogs.com/sanduzxcvbnm/p/10345641.html

weixin_30855099

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy下载器中间件用法示例

1.爬虫文件httpbin.py# -*- coding: utf-8 -*-import scrapyclass HttpbinSpider(scrapy.Spider): name = 'httpbin' allowed_domains = ['httpbin.org'] start_urls = ['http://httpbin.org/ge...
复制链接

扫一扫