文本挖掘
文章平均质量分 87
qll125596718
新浪微博:http://weibo.com/liamquan
展开
-
倒排索引基础
1.单词-文档矩阵 通常检索的场景是:给定几个关键词,找出包含关键词的文档。 怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词-文档矩阵模型,通过这个模型我们可以很方便知道某篇文档包含哪些单词,某个单词被哪些文档所包含。 搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构,具体可以包括:倒排索引、签名文件、后缀树等。常见的当然转载 2012-12-29 10:38:38 · 4248 阅读 · 1 评论 -
布尔检索及其查询优化
针对布尔查询的检索,布尔查询是指利用AND,OR或者NOT操作符将词项连接起来的查询。 举个简单的例子:莎士比亚的哪部剧本包含Brutus及Caesar 但是不包含Calpurnia?布尔表达式为:Brutus AND Caesar AND NOTCalpurnia。最笨的方法是线性扫描的方式:从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus和Caesar ,同时又不包原创 2012-12-26 02:29:40 · 13648 阅读 · 1 评论 -
文本特征提取
文本挖掘模型结构示意图1. 分词分词实例: 提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法: 最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的原创 2012-12-17 12:45:11 · 60942 阅读 · 4 评论 -
全文检索原理
转载一篇总结的相当不错的全文检索原理的文章 我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。 当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据转载 2012-02-27 20:05:00 · 9047 阅读 · 6 评论