关于余弦相似性算法,大家可以看这篇文章:TF-IDF与余弦相似性的应用(二)
这篇文章是基于分词的,里面有关于分词的知识。
其重点在于余弦算法:
这个算法的场景是这样的:
如何从一系列的字符串列表中找出一个相似度最高的结果返回出来。
如果碰到这样的问题,就应该考虑余弦相似性算法。例如:在一个国家名的列表中,有china(中国)这个字符串,而输入端获得的是chino,最后一个字符不同。
那么,如何计算这两个字符串的相似度呢?
import java.util.ArrayList;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;
public class CosSimilarAlgo {
public static void main(