什么是聚类?
本次分享聚类中最常用的方法,K-means
所谓聚类,就是将对象,按照某种属性进行划分,使得同种类别之间有较高相似性,不同类别有较大区分。
在机器学习领域,属于无监督模型,像之前的线性回归,逻辑回归,决策树均是有监督学习,聚类是无监督学习,只要根据有没有目标作为参照学习就可以区分。
所以聚类算法,若要达到我们想要的目的,特征的选择及相似性的度量标准,将是十分重要,也是十分考究功底的。
常用距离公式
我们用距离公式衡量相似性,常用的距离公式包括:闵科夫斯基距离(Minkowski distance)、余弦距离(Cosine Similarity)、马氏距离(Mahalanobis Distance)、KL散度(KL divergence)
1.闵科夫斯基距离(Minkowski distance)
当p=1时,闵科夫斯基距离即曼哈顿距离(Manhattan distance)
当p=2时,闵科夫斯基距离即欧式距离(Euclidean distance)
当p→∞时,闵科夫斯基距离即切比雪夫距离(Chebyshev Distance)
2.余弦距离(Cosine Similarity)</