相似度算法原理

 

  • 欧几里得距离(Eucledian Distance)或称 欧氏距离
  • 余弦相似度 (Cosine Similarity)
  • 杰卡德相似系数(Jaccard Similarity coefficient)
  • 皮尔逊相关系数(Pearson correlation)

 

1、欧几里得距离(欧氏距离(也称欧几里得度量)指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离))

dist(A,B)=\sqrt{\sum_{i=1}^{n } {(Ai-Bi)^{2}}}

2、曼哈顿距离(在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和)

dist(A,B)=\sum_{i=1}^{n}\left | Ai-Bi \right |

使用:在数据完整(无维度数据缺失)的情况下, 需要将空间划分成网格, 然后以网格为单位来进行度量, 允许4个方向

3、余弦相似度(余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度)

cos(\theta) =A\cdot B/ \left | A\left | \right |B \right |

使用:衡量两个向量方向的差异

4、皮尔森相关系数(用于比较有限样本集之间的相似性与差异性)

杰卡德相似系数计算公式

J(A,B)=\left | A\bigcap B \right |/\left | A\bigcup B \right |

杰卡德距离计算公式

J\delta (A,B)=1-J(A,B)=\left | A\cap B \right |-\left | B\cap A \right |/\left | A\cup B \right |

使用:比较文本相似度,用于文本查重与去重;

           计算对象间距离,用于数据聚类或衡量两个集合的区分度等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值