爬虫
文章平均质量分 91
名明鸣冥
这个作者很懒,什么都没留下…
展开
-
爬虫架构简述
项目情况最近做了一个爬虫系统,使用scrapy 作为核心,用kafka作队列,然后加上 java的消费者,还有其它周边服务,形成一个架构,这里进行一个简单的整理基础结构考虑到数据的扩展性和互联网的不确认性,考虑使用 nosql来存储大部分业务数据,同时为了更好的处理文字搜索, 于是决定使用elasticsearch + mysql的方式来处理.然后,我们考虑了底层服务,这涉及到数据获取,解...原创 2018-10-26 11:28:30 · 2758 阅读 · 0 评论 -
scrapy源码分析_初始化及settings
Crawler的初始化及动作下面是按启动顺序的逻辑,0,关于execute动作最先是把settings给加进来.site-packages\scrapy\cmdline.py中的 settings = get_project_settings() 这里首先会取site-packages\scrapy\settings\default_settings.py中的配置,然后取项目的setti...原创 2018-12-30 11:31:18 · 1113 阅读 · 0 评论