一、聚类
聚类是一种无监督学习,根据样本的内在相似性/距离,将大量未知标记的样本集划分为多个类别,使得同一个类别内的样本相似度较大(距离较小),而不同类别间的样本相似度较小(距离较大)。
划分聚类包含K-Means、Bisecting K-Means(二分K均值)、K-Means++、Mini Bacth K-Means等。
二、相似性/距离的度量
既然聚类是根据样本之间的内在相似性/距离进行分类的,那相似性/距离的度量有哪些呢?一般来说,相似性越小,距离则越大,二者成反比关系。对于两个样本X,Y,描述它们之间的相似性/距离可有以下几种:
1、闵可夫斯基距离
闵可夫斯基Minkowski距离公式为
Dist(X,Y)=(∑i=1n|xi−yi|p)1p
当 p = 2 时,即为欧氏距离:两个样本点的直线距离;
当 p = 1 时,即为曼哈顿距离:两个样本点的坐标轴距离;
当 p → ∞ 时,即为切比雪夫距离:两个样本点在各个坐标轴上相差距离的最大距离。
2、杰卡德相似系数
杰卡德相似系数表示为
J(A,B)=|A∩B||A∪B|
即两个样本的特征集合A和B的交集元素在A和B的并集中所占的比例。杰卡德相似系数越大,两个样本的相似性越大。
3、余弦相似度
余弦相似度表示为
cos(θ)=a⋅b|a||b|
其中 a、b为两个样本的特征向量。
余弦相似度可看作两个样本在坐标系中的向量表示a和b之间的夹角的余弦值,当夹角为0°时,余弦相似度为1;当夹角为90°时,余弦相似度为0;当夹角为180°时,余弦相似度为-1;
4、皮尔逊相关系数
皮尔逊相关系数的表示为
ρX