描述观测(变量)的亲疏关系
距离
1.非负性、同一性:距离要大于等于0,且自己到自己的距离为0.
2.对称性:A点到B点的距离与B点到A的距离是一样的。
3.三角不等式:A点到C点的距离要小于A点到B点的距离加B点到C点的距离。
例如:欧氏距离、马氏距离(协方差阵)、
相似系数
1.若两变量线性相关,那么它们之间的相关系数为±1。
2.相关系数的绝对值小于1。
3.向量A跟B的相关系数与向量B跟A的相关系数一样。
例如:夹角余弦、相关系数
系统聚类(层次聚类)
思想
1.将每一个样本都作为一类,计算每个类间的距离。
2.将距离最近的两个类归为一类,再次计算每个类之间的距离,如此往复,直到只剩下一个大类。
K的确定
1.散点图
2.根据统计量R方:当R方下降较快时,该步合并不进行。(组间残差平方和/总的残差平方和)
K-means聚类
思想
1.确定K值以及K个初始化类中心
2.就算每个样本与每个类中心的距离,将样本归类为距离类中心最小的那一类
3.计算每个类的中心(一般为均值),作为新的类中心
4.重复第2、3步
5.直到类中心变化不大的时候停止
初始类中心的选择
1.经验
2.随机抽样部分样本进行层次聚类,计算K类的各均值作为凝聚点。
3.选择距离最大的K个点作为初始类中心。
4.密度法。
密度聚类
密度:点的 ε \varepsilon ε领域内样本的数量
思想
1.确定
ε
\varepsilon
ε的值
2.计算每个样本
ε
\varepsilon
ε领域内的样本数,若包含多个,那么该样本作为类中心
3.将直接密度可达的类进行合并。
一些问题
1.初始点随机选取的话,怎么选择最好的聚类结果?
answer:计算各个结果的类间距与类内距,取类间距/类内距最大的那个结果。
2.k-means计算距离的权重怎么分配?
answer:根据各属性的贡献度计算,贡献度的话,我觉着可以使用信息增益率来计算。
3.混合类型怎么计算距离?
类别变量:同类为0,异类为1。
连续变量:直接计算欧氏距离,特殊情况就标准化。