Scrapy 使用代理IP并将输出保存到 jsonline

最新推荐文章于 2024-06-23 10:28:56 发布

亿牛云爬虫专家

最新推荐文章于 2024-06-23 10:28:56 发布

阅读量148

点赞数

分类专栏： python 爬虫代理爬虫技术文章标签： scrapy python 网络爬虫动态代理爬虫代理

本文链接：https://blog.csdn.net/ip16yun/article/details/130947373

版权

爬虫代理同时被 3 个专栏收录

211 篇文章 2 订阅

订阅专栏

爬虫技术

134 篇文章 0 订阅

订阅专栏

python

109 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Scrapy框架配置HTTP代理中间件进行爬虫，包括在settings.py中启用HttpProxyMiddleware，以及设置带有用户名和密码认证的代理。对于采集百度关键词搜索，展示了如何解析响应内容提取URL。此外，还讨论了两种保存Scrapy输出为jsonline格式的方法，即命令行选项和FEEDS设置。

摘要由CSDN通过智能技术生成

亿牛云代理
1、使用 scrapy 中间件，您需要在 settings.py 中启用 HttpProxyMiddleware，例如：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 1
}

2、使用爬虫加强版代理 IP 的用户名和密码认证方式，您需要在每个请求中设置 proxy 和 Proxy-Authorization 头，例如：

request = scrapy.Request(url="https://www.baidu.com/s?wd=keyword")

# 亿牛云 爬虫代理加强版 认证信息
proxyHost = "www.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "16YUN"
proxyPass = "16IP"

# [版本>=2.6.2](https://docs.scrapy.org/en/latest/news.html?highlight=2.6.2#scrapy-2-6-2-2022-07-25)无需添加验证头,会自动在请求头中设置Proxy-Authorization     
request.meta['proxy'] = "http://{0}:{1}@{2}:{3}".format(proxyUser,proxyPass，proxyHost，proxyPort)
yield request

3、采集百度关键词搜索，获取 URL，您需要在 parse 方法中解析响应内容，提取 URL，并生成新的请求或项目，例如：

def parse(self, response):
    urls = response.xpath("//div[@class='result c-container ']/h3/a/@href").getall()
    for url in urls:
        yield scrapy.Request(url=url, callback=self.parse_url)

def parse_url(self, response):
    yield {
        'url': response.url
    }

4、在爬虫采集的过程中，有几种方法可以将 Scrapy 输出保存为 jsonline 格式。一种方法是使用命令行选项 -O，并提供文件名和扩展名，例如：

scrapy crawl medscape_crawler -O medscape_links.jsonl

5、另一种方法是在您的 spider 或项目设置中使用 FEEDS 设置，例如：

FEEDS = {
    'medscape_links.jsonl': {
        'format': 'jsonlines',
        'encoding': 'utf8',
        'store_empty': False,
        'fields': None,
        'indent': 4,
        'item_export_kwargs': {
            'export_empty_fields': True,
        },
    },
}