- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 一个文本字符串相似度计算的小程序
帮人写了一个简单的小程序,用于计算两个文本字符串的相似度。计算方式非常简单,使用Lucene提供的StandardAnalyzer分词器将两个字符串分别分词、去除停用词、词干归一化,然后统计第一个文本中的词项在第二个文本中出现的次数,相似度 = 重复词项个数 / 第一个文本词项总数。原理非常简单,类似词带模型,但是有些用处。
2015-04-10 16:14:53 1182
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人