本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标:
(1)Euclidean Distance(欧几里德距离、欧氏距离)
设有两个向量,
它们之间的Euclidean Distance为:
,值越小越相似。
(2)Manhattan Distance(曼哈顿距离)
设有两个向量,
它们之间的Manhattan Distance为:
(3)Minkowsk Distance(闵可夫斯基距离)
设有两个向量,
它们之间的Minkowsk Distance为:
,值越小越相似。

本文详细介绍了数据挖掘、机器学习、信息检索领域的常用相似性和相关性度量指标,包括欧几里德距离、曼哈顿距离、闵可夫斯基距离、海明距离、Jaccard系数、皮尔森相关系数、余弦相似度、马氏距离、KL散度、点对互信息(PMI)以及归一化谷歌距离(NGD),并阐述了它们的计算方法和应用场合。
最低0.47元/天 解锁文章
5187

被折叠的 条评论
为什么被折叠?



