![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
信息检索
iteye_12007
这个作者很懒,什么都没留下…
展开
-
TF/IDF算法
一直说TF-IDF,终于开始做真正的TF-IDF。 TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。 一。TF/IDF描述单个term与特定document的相关性 TF(Term Frequency): 表示一个term与某个document的相关性。 公式为这个term在documen...原创 2011-10-07 09:19:20 · 161 阅读 · 0 评论 -
heritrix 下载、安装、配置、以及简单开发
heritrix下载及配置 一、下载:到www.sourceforge.net网站搜索heritrix,然后分别下载下来heritrix-1.14.0-RC1.zip,heritrix-1.14.0-RC1-src.zip 二、配置 .在非开发环境下配置的步骤 1.解压heritrix-1.14.0-RC1.zip,假设解压到了c盘根目录下并把解压后的文件...原创 2011-03-21 19:20:31 · 215 阅读 · 0 评论 -
自然语言处理领域的相关算法
1.PorterStemming算法(词干抽取) http://tartarus.org/~martin/PorterStemmer/ 里面有各个版本的词干抽取算法的实现。 2.Lawrence Philips' Metaphone Algorithm http://aspell.net/metaphone/ 里面有各个版本此算法的实现! 附一篇简...原创 2012-09-16 20:23:08 · 330 阅读 · 0 评论