k-means

最新推荐文章于 2022-08-02 14:00:00 发布

花折泪

最新推荐文章于 2022-08-02 14:00:00 发布

阅读量752

点赞数

分类专栏： machine learning 文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013802188/article/details/40683371

版权

machine learning 专栏收录该内容

20 篇文章 3 订阅

订阅专栏

我们先展示一下k-means方法的过程：

如图给出一个数据集：

1.我们猜测它可以被分为5类，因此我们初始化k=5，然后我们随机设置5个中心点

2.将数据与最近的中心点相匹配：

3.所有分为一类的数据重新计算中心点(均值)：

4.循环2,3过程直至收敛

让我们审视一下整个的收敛过程：

同样的，为了解决这个问题，我们也引入一个失真函数，在此之前我们先给出两个函数：

编码函数：

解码函数：

我们定义失真函数为：

又

所以

我们的目的是最小化失真函数，那么各个中心c1,c2…..,ck在失真函数最小的时候都会具有什么性能呢？

（1） xi必须被离他最近的中心所编码，否则我们可以通过替代ENCODE[xi]为最近的中心来减少失真函数

（2）失真函数在每个中心点的偏导为0

在最小的情况下：

也就是说，每一个中心点，都是属于该类的数据的几何中心(均值)

事实上我们是可以找到一种分类方式，其失真函数不是最优的，但是算法依然收敛：

所以，算法的开始设置很重要，我们通常都会随机设置起点，第二点尽量离第一点远，第j点尽量离前j-1点远。但是怎么去选择中心点的个数呢？

一个通用的方法是最小化Schwarz Criterion

下面介绍一下单链接层级聚类：

我们以什么标准来衡量相似度呢：

在每一群中的最小距离（这里通常使用欧几里得最小生成树）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
k-means

我们先展示一下k-means方法的过程：如图给出一个数据集：1.我们猜测它可以被分为5类，因此我们初始化k=5，然后我们随机设置5个中心点22.将数据与最近的中心点相匹配：33.所有分为一类的数据重新计算中心点(均值)：44.循环2,3过程直至收敛5让我们审视一下整个的收敛过程：6
复制链接

扫一扫

专栏目录

花折泪 CSDN认证博客专家 CSDN认证企业博客

码龄10年

60: 原创

18万+: 周排名

32万+: 总排名

14万+: 访问

: 等级

1651: 积分

51: 粉丝

52: 获赞

21: 评论

164: 收藏

私信

关注

热门文章

分类专栏

acm 46篇
opencv 1篇
database
machine learning 20篇

最新评论

独立成分分析（Independent Components Analysis）
WangNa434: 写得太好了，请问最后的例子如何实现？？
1008. 数组元素循环右移问题 (20)
qq_36037874: 大佬思路确实厉害。不过前几种用string实现的方式似乎只能处理个位数，无法处理两位数以上的情况吧。而题目要求的是正整数这个域。
1008. 数组元素循环右移问题 (20)
RyanBronx: 太厉害了
坐标下降法(Coordinate descent)
有硬币就是土豪: 剽窃都不注明出处！这些图，公式都是博主自己打的吗
坐标下降法(Coordinate descent)
我的心永远是冰冰哒: 您好，我有一个问题想请教一下，就在开始证明的最后的那个部分(我没法加入图片，图片网址是https://img-blog.csdn.net/20141026151628490?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMzgwMjE4OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast），f(y）-f(x)的那一步，我能看懂g(y)>g(x),为什么有h(y_i)>h(x_i),这个是怎么得到的，另外这里的h(x_i)是什么意思，是h(x_i)表示的是一个关于分量x_i的凸函数吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。