一、基本概念
聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中。
应用场景:文档分类器、客户分类、保险欺诈检测、 乘车数据分析
二、距离计算
对于有序距离
其中P=1为曼哈顿距离
P=2为欧氏距离
对于无序距离
使用VDM距离:
其中 mu,a,i表示在第i个样本簇中属性u上取值为a的样本数
mu,a表示属性u上取值为a的样本数
k为样本簇数
混合距离
使用闵科夫斯基距离和VDM的混合
其中nc为有序属性个数
加权距离
根据不同属性的重要性,可使用“加权”距离
二、聚类算法的分类
2.1 基于原型的聚类
①、Kmeans算法
主要思想:
在给定K值和K个初始类簇中心点的