![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
课程相关
ppdouble
这个作者很懒,什么都没留下…
展开
-
倒排文件索引结构
倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施a.我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。b.文章中的”in”, “once” “to转载 2010-11-03 19:30:00 · 870 阅读 · 0 评论 -
TF-IDF
—— 一直说TF-IDF,终于开始做真正的TF-IDF。TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。一。TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性。公式为这个term在docu转载 2010-11-03 19:45:00 · 898 阅读 · 0 评论