爬虫工作流程:
1. 抓取数据
2. 数据噪声去重
3. 链接提取
4. 网页内容提取
搜索引擎结构体系的基本模块
l 爬虫服务
l 索引服务:目录
l 缓存服务
l 搜索服务
l 日志服务
搜索引擎体系技术
1. 自然语言处理:利用大数据分析原理及自然语言处理对数据进行文本挖掘
2. 知识图谱技术:组成元素:实体 实体标签 实体关系
3. 海量数据存储:来源:原始数据、索引数据、日志数据 采用分布式存储技术
4. 分布式计算:依赖分布式计算平台
5. 索引排序技术:利用搜索词进行排序(相关性排序)、利用文档质量排序、利用用户信息排序
广度优先遍历适合全搜索的爬虫
深度优先遍历适合垂直搜索和站内搜索的爬虫