网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
from selenium import webdriver
# 下载链接
items['download_link'] = self.get_download_link(response.url)
def get_download_link(self, url):
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get(url)
link = re.search(r'\"(thunder:.*?)\"', driver.page_source).group(1)
driver.close()
return link
最后,pipelines中保存数据:
class DyttRedisSlaverPipeline(object):
def __init__(self):
self.file = open('movie.json', 'w')
def process_item(self, item, spider):
content = json.dumps(dict(item), ensure_ascii=False) + "\n"
self.file.write(content)
return item
def close_spider(self, spider):
self.file.close()
运行爬虫,得到第一页的30条数据:
二、修改项目为RedisCrawlSpider爬虫
1、首先修改爬虫文件
① RedisCrawlSpider修改很简单,首先需要引入RedisCrawlSpider:
from scrapy_redis.spiders import RedisCrawlSpider
② 将父类中继承的CrawlSpider
改为继承RedisCrawlSpider
:
class DyttSlaverSpider(RedisCrawlSpider):
③ 因为slaver端要从redis数据库中获取爬取的链接信息,所以去掉allowed_domains()
和 start_urls
,并添加redis_key
redis_key = 'dytt:start_urls'
④ 增加__init__()
方法,动态获取allowed_domains()
,[理论上要加这个,但是实测加了爬取的时候链接都被过滤了,所以我没加,暂时没发现有什么影响]
def __init__(self, *args, **kwargs):
domain = kwargs.pop('domain', '')
self.allowed_domains = filter(None, domain.split(','))
super(DyttSlaverSpider, self).__init__(*args, **kwargs)
2、修改setting文件
① 首先要指定redis数据库的连接参数:
REDIS_HOST = '192.168.0.131'
REDIS_PORT = 6379
② 指定使用scrapy-redis
的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
③ 指定使用scrapy-redis
的去重
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
④ 指定排序爬取地址时使用的队列
# 默认的 按优先级排序(Scrapy默认),由sorted set实现的一种非FIFO、LIFO方式。
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
# 可选的 按先进先出排序(FIFO)
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderQueue'
# 可选的 按后进先出排序(LIFO)
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderStack'
⑤ 设置断点续传,也就是不清理redis queues
SCHEDULER_PERSIST = True
⑥ 默认情况下,RFPDupeFilter
只记录第一个重复请求。将DUPEFILTER_DEBUG
设置为True
会记录所有重复的请求。
DUPEFILTER_DEBUG =True
⑦ 配置RedisPipeline
将item
写入key
为 spider.name : items
的redis的list中,供后面的分布式处理item
ITEM_PIPELINES = {
'dytt_redis_slaver.pipelines.DyttRedisSlaverPipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400
}
3、增加爬虫信息字段(可选)
由于会有多个slaver端,所以可加一个爬虫名字的字段和时间字段来区分是哪个爬虫在什么时间爬到的信息。
① item中增加字段
# utc时间
crawled = scrapy.Field()
# 爬虫名
spider = scrapy.Field()
② pipelines中新增类:
class InfoPipeline(object):
def process_item(self, item, spider):
#utcnow() 是获取UTC时间
item["crawled"] = datetime.utcnow()
# 爬虫名
item["spider"] = spider.name
return item
③ setting中设置ITEM_PIPELINES
ITEM_PIPELINES = {
'dytt_redis_slaver.pipelines.DyttRedisSlaverPipeline': 300,
'dytt_redis_slaver.pipelines.InfoPipeline':350,
'scrapy_redis.pipelines.RedisPipeline': 400
}
至此,项目修改完毕,现在可以爬取某一分类下的第一页的电影信息。
以Windows10为slaver端运行一下:
因为请求队列为空,所以爬虫会停下来进行监听,直到我们在Master端给它一个新的连接:
爬虫启动,开始爬取信息:
爬取完成后,项目不会结束,而是继续等待新的爬取请求的到来,爬取结果:
本章小结:
本章将一个crawlspider爬虫改为了RedisCrawlSpider爬虫,可以实现分布式爬虫,但是由于数据量较小(只有30条)所以只用了一个slaver端。并且没有去设置代理ip和user-agent,下一章中,针对上述问题,将对项目进行更深一步的修改。
(1)Python所有方向的学习路线(新版)
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
最近我才对这些路线做了一下新的更新,知识体系更全面了。
(2)Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!