scrapy多线程文件下载

最新推荐文章于 2022-03-03 08:04:20 发布

weixin_34233856

最新推荐文章于 2022-03-03 08:04:20 发布

阅读量260

点赞数

文章标签： python 数据库

原文链接：http://www.cnblogs.com/seablog/p/7157646.html

版权

在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。

scrapy中有个扩展可以使用扩展模块来实现下载。

在自己的spider中加入 custom_settings

class MytestSpider(scrapy.Spider):
    name = "mytest"
    custom_settings = {
        'EXTENSIONS': { #设在拓展
            'mymidtest.mydownutils.extension.SpiderOpenCloseLogging': 500,  
        },
        'MYEXT_ENABLED': True, #打开拓展
    }

'mymidtest.mydownutils.extension.SpiderOpenCloseLogging'为项目路劲下的mydownuils包
在ini函数中加入

    def __init__(self, ):
        .........
        .........
        self.myredis = operatRedis(self.name)
        self.Redis = self.myredis.get_instent()

在要下载的时候添加

self.myredis.add_url_filepath(self.Redis,url,filepath_all)

url为下载url地址,filepath_all文件存储地址
这样工具包就配置好可以下载了


工具包地址
github地址：https://github.com/sea1234/pyScrapyDownUtils

转载于:https://www.cnblogs.com/seablog/p/7157646.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34233856

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy多线程文件下载

在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。scrapy中有个扩展可以使用扩展模块来实现下载。在自己的spider中加入 custom_settingsclass MytestSpider(scrapy.Spider): name = "mytest" custom_settings = { 'EXTEN...
复制链接

扫一扫