0.聚类
聚类就是对大量的未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,聚类属于无监督的学习方法。
1.内在相似性的度量
聚类是根据数据的内在的相似性进行的,那么我们应该怎么定义数据的内在的相似性呢?比较常见的方法是根据数据的相似度或者距离来定义的,比较常见的有:
闵可夫斯基距离/欧式距离
上述距离公式中,当p=2时,就是欧式距离,当p=1时,就是绝对值的和,当p=正无穷时,这个距离变成了维度差最大的那个值。
杰卡德相似系数
一般是度量集合之间的相似性。
余弦相似度
Pearson相似系数
对于n维向量的夹角,根据余弦定理,可到:
又由相关系数的计算公式,可得:
不难发现,相关系数就是将x,y坐标向量各自平移到原点后的夹角余弦。
相对熵(K-L距离)