--设计:通用爬虫+爬取规则
--配置式定义爬取规则
-鼠标选取式定义数据结构
-分页
-参数
-认证
-动态ip
-验证码
-https
--分布式爬虫运行平台
-调度-定时、暂停、继续、停止-job、task
-队列
-去重-bloomfilter
-网页存储-异步
-建索引-异步
--爬虫管理监控
--数据仓库管理
-原始数据
-结构化数据
-索引库
--搜索引擎
-实时索引
-批量重建索引
--中文分词
-词库集中管理
-词库更新
--配置式定义爬取规则
-鼠标选取式定义数据结构
-分页
-参数
-认证
-动态ip
-验证码
-https
--分布式爬虫运行平台
-调度-定时、暂停、继续、停止-job、task
-队列
-去重-bloomfilter
-网页存储-异步
-建索引-异步
--爬虫管理监控
--数据仓库管理
-原始数据
-结构化数据
-索引库
--搜索引擎
-实时索引
-批量重建索引
--中文分词
-词库集中管理
-词库更新