Python分布式爬虫详解（二）_python的socket编程和分布式爬虫有什么区别(2)

最新推荐文章于 2024-09-13 19:41:31 发布

2401_84572928

最新推荐文章于 2024-09-13 19:41:31 发布

阅读量733

点赞数 10

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84572928/article/details/138727062

版权

程序员专栏收录该内容

96 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

from selenium import webdriver

# 下载链接
items['download_link'] = self.get_download_link(response.url)

def get_download_link(self, url):
        chrome_options = webdriver.ChromeOptions()
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('--disable-gpu')
        driver = webdriver.Chrome(chrome_options=chrome_options)
        driver.get(url)
        link = re.search(r'\"(thunder:.*?)\"',  driver.page_source).group(1)
        driver.close()
        return link

最后，pipelines中保存数据：

class DyttRedisSlaverPipeline(object):
    def __init__(self):
        self.file = open('movie.json', 'w')

    def process_item(self, item, spider):
        content = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(content)
        return item

    def close_spider(self, spider):
        self.file.close()

运行爬虫，得到第一页的30条数据：

二、修改项目为RedisCrawlSpider爬虫

1、首先修改爬虫文件

① RedisCrawlSpider修改很简单，首先需要引入RedisCrawlSpider：

from scrapy_redis.spiders import RedisCrawlSpider

② 将父类中继承的CrawlSpider改为继承RedisCrawlSpider：

class DyttSlaverSpider(RedisCrawlSpider):

③ 因为slaver端要从redis数据库中获取爬取的链接信息，所以去掉allowed_domains() 和 start_urls，并添加redis_key

redis_key = 'dytt:start_urls'

④ 增加__init__()方法，动态获取allowed_domains()，[理论上要加这个，但是实测加了爬取的时候链接都被过滤了，所以我没加，暂时没发现有什么影响]

     def __init__(self, *args, **kwargs):
         domain = kwargs.pop('domain', '')
         self.allowed_domains = filter(None, domain.split(','))
         super(DyttSlaverSpider, self).__init__(*args, **kwargs)

2、修改setting文件

① 首先要指定redis数据库的连接参数：

REDIS_HOST = '192.168.0.131'
REDIS_PORT = 6379

② 指定使用scrapy-redis的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

③ 指定使用scrapy-redis的去重

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

④ 指定排序爬取地址时使用的队列

# 默认的 按优先级排序(Scrapy默认)，由sorted set实现的一种非FIFO、LIFO方式。
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
# 可选的 按先进先出排序（FIFO）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderQueue'
# 可选的 按后进先出排序（LIFO）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderStack'

⑤ 设置断点续传，也就是不清理redis queues

SCHEDULER_PERSIST = True

⑥ 默认情况下,RFPDupeFilter只记录第一个重复请求。将DUPEFILTER_DEBUG设置为True会记录所有重复的请求。

DUPEFILTER_DEBUG =True

⑦ 配置RedisPipeline将item写入key为 spider.name : items 的redis的list中，供后面的分布式处理item

ITEM_PIPELINES = {
   'dytt_redis_slaver.pipelines.DyttRedisSlaverPipeline': 300,
   'scrapy_redis.pipelines.RedisPipeline': 400
}

3、增加爬虫信息字段（可选）

由于会有多个slaver端，所以可加一个爬虫名字的字段和时间字段来区分是哪个爬虫在什么时间爬到的信息。

① item中增加字段

    # utc时间
    crawled = scrapy.Field()
    # 爬虫名
    spider = scrapy.Field()

② pipelines中新增类：

class InfoPipeline(object):

    def process_item(self, item, spider):
        #utcnow() 是获取UTC时间
        item["crawled"] = datetime.utcnow()
        # 爬虫名
        item["spider"] = spider.name
        return item

③ setting中设置ITEM_PIPELINES

ITEM_PIPELINES = {
   'dytt_redis_slaver.pipelines.DyttRedisSlaverPipeline': 300,
   'dytt_redis_slaver.pipelines.InfoPipeline':350,
   'scrapy_redis.pipelines.RedisPipeline': 400
}

至此，项目修改完毕，现在可以爬取某一分类下的第一页的电影信息。

以Windows10为slaver端运行一下：