第三天:数据科学—样本相似性和相异性

本文详细介绍了相似度和相异性在IT技术中的概念,包括各种度量方法如欧式距离、曼哈顿距离、明可夫斯基距离、马式距离(协方差方差距离)、余弦相似度和Jaccard相似度,以及它们在衡量对象相似度和差异度方面的应用。
摘要由CSDN通过智能技术生成

1.相似性:两个对象相似程度的数值度量。相似度是非负的,在0(不相似)和1(完全相似)之间取值。

2.相异性:两个对象差异程度的度量,对象越相似,相异度越低。相异度的同义词是距离。

3.相似度与相异度的度量方法:

①欧式距离(将样本看作一个点)

在m维的空间中2点之间的真实距离。

距离越短,两点相似度越大,反之亦然

②曼哈顿距离(可以如此理解:看网格中的距离,并不看直接连线)

③明可夫斯基距离(明式距离是欧式距离距离的推广)

在公式中:

P==1,明式距离就是曼哈顿距离

P==2,明式距离就是欧式距离

P 趋近于无穷大 ,即为切比雪夫距离

④马式距离(通常是指样本集的相似度)

数据的协方差方差距离

⑤余弦相似度

(看两个向量的夹角)

⑥Jaccard相似度

真懒惰啊  好好鞭策自己

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值