聚类

描述观测(变量)的亲疏关系

距离

1.非负性、同一性:距离要大于等于0,且自己到自己的距离为0.
2.对称性:A点到B点的距离与B点到A的距离是一样的。
3.三角不等式:A点到C点的距离要小于A点到B点的距离加B点到C点的距离。
例如:欧氏距离、马氏距离(协方差阵)、

相似系数

1.若两变量线性相关,那么它们之间的相关系数为±1。
2.相关系数的绝对值小于1。
3.向量A跟B的相关系数与向量B跟A的相关系数一样。
例如:夹角余弦、相关系数

系统聚类(层次聚类)

思想

1.将每一个样本都作为一类,计算每个类间的距离
2.将距离最近的两个类归为一类,再次计算每个类之间的距离,如此往复,直到只剩下一个大类。

K的确定

1.散点图
2.根据统计量R方:当R方下降较快时,该步合并不进行。(组间残差平方和/总的残差平方和)

K-means聚类

思想

1.确定K值以及K个初始化类中心
2.就算每个样本与每个类中心的距离,将样本归类为距离类中心最小的那一类
3.计算每个类的中心(一般为均值),作为新的类中心
4.重复第2、3步
5.直到类中心变化不大的时候停止

初始类中心的选择

1.经验
2.随机抽样部分样本进行层次聚类,计算K类的各均值作为凝聚点。
3.选择距离最大的K个点作为初始类中心。
4.密度法。

密度聚类

密度:点的 ε \varepsilon ε领域内样本的数量

思想

1.确定 ε \varepsilon ε的值
2.计算每个样本 ε \varepsilon ε领域内的样本数,若包含多个,那么该样本作为类中心
3.将直接密度可达的类进行合并。

一些问题

1.初始点随机选取的话,怎么选择最好的聚类结果?
answer:计算各个结果的类间距与类内距,取类间距/类内距最大的那个结果。
2.k-means计算距离的权重怎么分配?
answer:根据各属性的贡献度计算,贡献度的话,我觉着可以使用信息增益率来计算。
3.混合类型怎么计算距离?
类别变量:同类为0,异类为1。
连续变量:直接计算欧氏距离,特殊情况就标准化。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值