ML笔记——K - means算法

目录


想法

将未处理的数据投影到空间中,可以通过聚集程度将数据划分为几个族。如果认为的引入几个点,作为簇的代表,并以数据点到这几个点的聚集程度为依据将数据划分到对应的标记点代表的族中。

此处的聚集程度可以考虑使用欧氏距离

数学表达

  • 代价函数:
    J(c1,...,cm,μ1,...,μk)=1mmi=1xiμci2 J ( c 1 , . . . , c m , μ 1 , . . . , μ k ) = 1 m ∑ i = 1 m ∥ x i − μ c i ∥ 2
    其中的
    ci c i 表示第 i i 个数据所在的簇的标号
    μk表示第 k k 个簇的代表点
    xiμci2表示第 i i 个数据距离代表点的距离

  • 确定第i个数据所在的簇的方式
    ci=min1kK(xiμk2) c i = min 1 ≤ k ≤ K ( ∥ x i − μ k ∥ 2 )
    其中的
    K K 表示簇的个数

  • 动态更新μk使其更能代表所在的簇
    μk=1nnj=1xj (cj=k) μ k = 1 n ∑ j = 1 n x j   ( c j = k )

胡思乱想时刻

  1. K K 个代表簇的节点的选取
    K的选取可以根据具体的问题确定,还可以通过“肘部法则”选取(如:参考簇的个数与代价函数的关系或平均直径法
    节点的选取,可以随机选取训练数据点,将数据点作为代表点,为了避免局部最优的结果,可以通过多次随机选取,之后比较代价函数确定最后的解
  2. 如何确定算法结束
    K K <script type="math/tex" id="MathJax-Element-28">K</script>个代表点的值不发生改变时,算法结束
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值