k-means算法及文本聚类实践

最新推荐文章于 2023-04-25 15:31:38 发布

Thinking_boy1992

最新推荐文章于 2023-04-25 15:31:38 发布

阅读量916

点赞数 2

分类专栏：算法文章标签：算法

算法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

http://www.cnblogs.com/fengfenggirl/p/k-means.html
　　K-Means是常用的聚类算法，与其他聚类算法相比，其时间复杂度低，聚类的效果也还不错，这里简单介绍一下k-means算法，下图是一个手写体数据集聚类的结果。这里写图片描述
基本思想
　k-means算法需要事先指定簇的个数k，算法开始随机选择k个记录点作为中心点，然后遍历整个数据集的各条记录，将每条记录归到离它最近的中心点所在的簇中，之后以各个簇的记录的均值中心点取代之前的中心点，然后不断迭代，直到收敛，算法描述如下：
　这里写图片描述
　上面说的收敛，可以看出两方面，一是每条记录所归属的簇不再变化，二是优化目标变化不大。算法的时间复杂度是O(K*N*T)，k是中心点个数，N数据集的大小，T是迭代次数。
优化目标
　k-means的损失函数是平方误差：
　
这里写图片描述
其中ωk表示第k个簇，u(ωk)表示第k个簇的中心点，RSSk是第k个簇的损失函数，RSS表示整体的损失函数。优化目标就是选择恰当的记录归属方案，使得整体的损失函数最小。
中心点的选择
　k-meams算法能够保证收敛，但不能保证收敛于全局最优点，当初始中心点选取不好时，只能达到局部最优点，整个聚类的效果也会比较差。可以采用以下方法选取k-means中心点：
　1、选择彼此距离尽可能远的那些点作为中心点；
　　2、先采用层次进行初步聚类输出k个簇，以簇的中心点的作为k-means的中心点的输入。
　　3、多次随机选择中心点训练k-means，选择效果最好的聚类结果
k值的选取
　k-means的误差函数有一个很大缺陷，就是随着簇的个数增加，误差函数趋近于0，最极端的情况是每个记录各为一个单独的簇，此时数据记录的误差为0，但是这样聚类结果并不是我们想要的，可以引入结构风险对模型的复杂度进行惩罚：
　这里写图片描述
　λ是平衡训练误差与簇的个数的参数，但是现在的问题又变成了如何选取λλ了，有研究[参考文献1]指出，在数据集满足高斯分布时，λ=2m，其中m是向量的维度。
　另一种方法是按递增的顺序尝试不同的k值，同时画出其对应的误差值，通过寻求拐点来找到一个较好的k值；
　

Thinking_boy1992

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
k-means算法及文本聚类实践

http://www.cnblogs.com/fengfenggirl/p/k-means.html 　　K-Means是常用的聚类算法，与其他聚类算法相比，其时间复杂度低，聚类的效果也还不错，这里简单介绍一下k-means算法，下图是一个手写体数据集聚类的结果。基本思想　k-means算法需要事先指定簇的个数k，算法开始随机选择k个记录点作为中心点，然后遍历整个数据集的各条记录，将每条
复制链接

扫一扫