机器学习之划分聚类及代码示例

一、聚类

聚类是一种无监督学习,根据样本的内在相似性/距离,将大量未知标记的样本集划分为多个类别,使得同一个类别内的样本相似度较大(距离较小),而不同类别间的样本相似度较小(距离较大)。

划分聚类包含K-Means、Bisecting K-Means(二分K均值)、K-Means++、Mini Bacth K-Means等。

二、相似性/距离的度量

既然聚类是根据样本之间的内在相似性/距离进行分类的,那相似性/距离的度量有哪些呢?一般来说,相似性越小,距离则越大,二者成反比关系。对于两个样本X,Y,描述它们之间的相似性/距离可有以下几种:

1、闵可夫斯基距离

闵可夫斯基Minkowski距离公式为

Dist(X,Y)=(i=1n|xiyi|p)1p

当 p = 2 时,即为欧氏距离:两个样本点的直线距离;
当 p = 1 时,即为曼哈顿距离:两个样本点的坐标轴距离;
当 p → ∞ 时,即为切比雪夫距离:两个样本点在各个坐标轴上相差距离的最大距离。

2、杰卡德相似系数

杰卡德相似系数表示为

J(A,B)=|AB||AB|

即两个样本的特征集合A和B的交集元素在A和B的并集中所占的比例。杰卡德相似系数越大,两个样本的相似性越大。

3、余弦相似度

余弦相似度表示为

cos(θ)=ab|a||b|

其中 a、b为两个样本的特征向量。

余弦相似度可看作两个样本在坐标系中的向量表示a和b之间的夹角的余弦值,当夹角为0°时,余弦相似度为1;当夹角为90°时,余弦相似度为0;当夹角为180°时,余弦相似度为-1;

4、皮尔逊相关系数

皮尔逊相关系数的表示为

ρX
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值