机器学习-聚类算法

python教程-聚类算法基础对应笔记

过程

kMeans的过程即迭代求平均质心,直到质心偏移较小或迭代次数足够多为止。

评估

  1. 用SSE,即每个类别到中心的误差平方和,测量当前参数设置的聚类结果。
  2. 并用肘方法选择最佳的k值
  3. 最后用轮廓系数法(Silhouette Coefficient)评估聚类的效果,目的时内部距离最小化,外部距离最大化。关于轮廓系数的说明, 轮廓系数说明2。所有样本的s i 的均值称为聚类结果的轮廓系数,是该聚类是否合理、有效的度量。
  4. CH系数(Calinski-Harabasz Index)待读

KMeans的改进方法 分裂法,凝聚法,谱类聚等等

聚类的注意问题

聚类的注意问题在14分钟后提到:聚类时,

  1. 对于连续性变量,为了解决不同单位换算的问题,应当使用标准化。因为不同单位下变量的欧氏距离会变化较大。
  2. 对于分类型变量(即one-hot变量),应当将1转化为 1 2 \frac{1}{\sqrt{2}} 2 1。因为如下图所示,当两个one-hot变量只有一个类型的差别,但计算得到的距离是 1 2 + 1 2 = 2 \sqrt{1^2+1^2}=\sqrt{2} 12+12 =2 ,因此将one-hot变量的1转为 1 2 \frac{1}{\sqrt{2}} 2 1,使得欧式距离计算得1.
    分类型变量
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值