Information Retrieval
Andrew659
这个作者很懒,什么都没留下…
展开
-
TF-IDF算法
TF-IDF算法在两个方面都有重要的作用:1. 提取文章的关键字词 2. 根据关键词检索出相关度高的文本。这个算法被公认为信息检索领域最重要的发明,是很多算法和模型的基础。 什么是TF-IDFTF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种 统计方法,用以评估一字词对于一个文转载 2010-02-04 21:47:00 · 6990 阅读 · 1 评论 -
Topic-Based Vector Space Model
TVSM是Document Comparison之类应用的基础理论。对一个文档集进行抽象,所有的基本topic都相互正交(独立),构造出一个D维的空间,每个term都由一个向量来表示,例如与文档主题基本不关的of,the等词语的向量权值(长度)就理论上是0,关键词语的权重就接近1,并且和某个坐标轴的夹角很小。文档di就可以用其所有术语的词频乘以该术语的向量求和算得,一般情况下腰归一化,便于计算。而原创 2010-02-05 20:47:00 · 1552 阅读 · 0 评论 -
lucene倒排索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章转载 2010-03-10 11:38:00 · 795 阅读 · 0 评论