聚类算法介绍(欧氏距离和余弦距离)

1.聚类就是将数据集划分为若干相似对象组成的多个组或簇的过程,使得同一个组或簇相似度最大化,不同簇间相似度最小化。(有时候聚类可以评价相似性)

2.聚类的本质是分组,属于无监督机器学习(只需要特征X,不需要标签y)。

3.在聚类分析中,样本之间相似性通常采用样本之间的距离来表示,距离越大表示两个样本越不相似,差异性越大。距离越小,样本差异性越大,距离为零表示两个样本完全一样,无差异。

4.连续型数值计量方法

 

最常用的是欧氏距离(l2范数,两点之间直线距离)

曼哈顿距离(l1范数,两点之间台阶式距离)

5.如果数据是连续性的数据,我们要计算距离,就要对数据做归一化处理,防止不同维度的数据对距离计算造成影响。

6.计算空间中点的距离的时候评价远近可以用欧式距离或者余弦距离。不同的距离测度会得出不同的聚类结果。

余弦距离:假设空间中有两点,我们计算这两个点与原点连成的直线的夹角的余弦是多少度,取值范文是[-1,+1]如果越趋近于1代表越相似,越趋近于-1代表方向相反,0代表正交。

夹角越大就说明两点越不相似,夹角越小说明越相似。(简单来说,欧氏距离就是看两点之间的直线距离,余弦距离就是直接比较两点之间的夹角)

7.如果两个向量长度相等且方向相同,那么就说这两个向量欧氏距离和余弦距离相同 

余弦距离测度效率比欧氏距离测度高

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值