垂直搜索引擎模块设计

最新推荐文章于 2024-08-08 13:14:20 发布

ranxs

最新推荐文章于 2024-08-08 13:14:20 发布

阅读量529

点赞数

分类专栏：搜索引擎文章标签：搜索引擎任务调度 lucene 扩展情感数据挖掘

搜索引擎专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1：配置模块：
采集目标：新闻，用户评论,博客，论坛等等
采集源配置的集成开发环境，可视化。

2：爬虫模块：
网站内容组织结构（网站地图）的自动识别。
支持cookie二次验证(如新华网)，验证码登陆的支持编辑弹出验证

3：初次过滤模块（过滤广告，导航等无用信息）
概览页面选定区域内包含链接的规则识别、地址过滤和转换。
细览页面选定区域内包含数据的精确识别、格式转换（内码转换，地址转换，时间转换等等）
基于视觉的网页自动分区技术（VIPS），网页分区后的区域类型和特征的自动标注。
DOM树结构分析；基于分区的网页结构分析思想，可视化的区域选择配置

4：任务调度模块：更新策略，调度策略，日志管理
预设监控目标网站的各项阈值，提供异常情况发生的报警机制；考虑URL二级映射，以便爬虫服务器在动态增减后数据交换量尽量少

5：数据挖掘模块：
文本分类、文本聚类、相似性检索、自动摘要、自动分词、信息抽取、敏感信息过滤、情感分析、拼音检索、相关短语检索
5.1文本分类：
基于统计的文本分类（训练语料库，支持修改补充语料库和规则库）；支持多级和复分；支持基于语义分析的向量空间模型，用户可以建立知识词典，模块自动调用知识库资源，进一步提高分类的精确度。
基于规则体系的文本分类（编写分类规则）:
规则支持“与或非”等逻辑运算和词频数条件设置。
比如表达式：作者=（刘翔+顾宝刚）- 正文=（比赛）；标题=（复出） + 正文=（美国+治疗）
K近邻法和支持向量机等分类算法：http://www.360doc.com/content/070716/23/11966_615236.html

某SVM分类器：http://www.csie.ntu.edu.tw/~cjlin/libsvm/

5.2文本聚类：
将相近、相似或者相同特征的文本聚合在一起

5.3相似性检索
用户可以自定义相似度阈值
提取网页摘要、关键词和主题词等特征，自动生成唯一序列，自动判断信息指纹是否相等
效率方面用倒排索引机制等等提高

5.4自动摘要
用户可以建立专业词典，自定义线索词
网页包含关键词的自动提取

5.5自动分词
第一阶段：正向减字最大匹配+逆向减字最大匹配，如果不相同，再用回溯法重新处理
第二阶段：
规则与统计相结合，内嵌分词歧义规则库
提供词性标注功能，准确识别人名、地名、组织机构名等信息
分词词典：系统支持设立主题词表、同义词/反义词典、禁用词典以及词典按需维护
分词规则库：统计建立了大量歧义排除规则，有效提高了分词准确性、提高了查准率。
支持主题词典自动扩展检索、同义词/反义词自动扩展检索、全半角自动扩展检索、简繁体自动扩展检索（基于权威知识库体系，辅助元数据信息的纠错和补全）

5.6信息抽取
抽取目标：结构化（时间），半结构化（html），非结构化（人名、地名、机构名、时间以及货币等等）

抽取方法：
1：模板技术（人工标注各类模板库，然后自动萃取。有可能的话用神经网络自动训练）
2：启发式的获取（新闻的正文一般在标题下面最近的一块大区域）
3：利用视觉相似性自动分析网页语义结构（目前比较流行的方式）

对于js信息（js解释器本地解析或者模拟触发js事件，如搜狐论坛）

5.7情感分析

6存储模块：
结构化数据：各种关系数据库
非机构化数据：文件系统Lucene做索引，BigTable（HBase、Hypertable）
分布式：Hadoop集群，MogileFS自动备份等等