k_means聚类后簇缺失问题的解决办法

最新推荐文章于 2022-07-01 12:48:40 发布

慢跑的小马

最新推荐文章于 2022-07-01 12:48:40 发布

阅读量7.4k

点赞数 7

分类专栏：机器学习文章标签：聚类

本文链接：https://blog.csdn.net/myaue2013/article/details/78616525

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天在用自己之前写的k-means算法对iris数据集聚类时，发现聚类结果经常只有两个类，比实际少一个，这是得聚类的精度大打折扣。

于是乎想了个办法，在聚类的过程中，如果发现在某一次迭代后某一个簇的实例数为零，此时无法计算簇心。为了保持簇的数量不减少，可以利用其他簇心构造一个簇心，最简单的方法就是将其他簇心的平均值作为新的簇心。

代码示例如下：

% 更新聚类中心
z = 0;
for i = 1:N
    cln = data(cl==i,:);
    ct(i,:) = sum(cln)/max(eps,size(cln,1));
    if size(cln,1) == 0
        z = i;
    end
end
% 构造缺失簇心
if z ~= 0
    ct(z,:) = sum(ct)/(size(ct,1)-1);
end

经实验验证，在不处理簇缺失的情况下，如果发生簇缺失，聚类准确率大概只有0.67；而通过构造缺失簇心可以使准确类保持0.9左右。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

慢跑的小马

关注关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【机器学习】Kmeans的C++实现及空簇的产生原因

Shwan_ma的博客

04-26

4486

Kmeans在无监督学习中，由于其非常容易实现，所以常常被用来聚类。但是他的缺点也需要注意： 1）Kmeans由于只适用于球形数据，这个原因来自于他的欧式距离来衡量相似度。如果数据分布不是球形的，则最后聚类结果往往不会太理想。 2）Kmeans 非常容易收敛到局部最小值，而且在大规模数据集上收敛较慢。 3）Kmeans极其容易产生空簇。下面举一个Kmeans 空簇产生的一个例子 1. ...

K-means

Spbau的专栏

01-13

691

K-means Spbau写于2013-1-12晚标签：机器学习分类 K-means K-means方法是一种经典的聚类方法，因不需要预先知道一些样本数据的分类作为参考，所以是一种非监督的分类方法。我们使用K-means进行分类时，只需要提供样本数据集D（x1,x2,…,xn）和类别数K。然后按如下步骤进行分类。 1，随机的设置K个位置（m1,m2,…,mk）为K类的

参与评论您还未登录，请先登录后发表或查看评论

Kmean聚类分析

会吃狼的鳄鱼

08-29

2174

第一步：构造数据；#!/usr/bin/env python # -*- coding: utf-8 -*- # #构造向明显向K个中心点聚合的数据集 # import numpy as np import random print np.random.random() def createSampleData(): with open( "data.txt",'w') as f:

python聚类后的点很少_python – 在KMeans聚类后查找集群的长度(与...

weixin_39753397的博客

12-11

251

我使用sklearn使用Kmeans进行了聚类.虽然它有一种打印质心的方法,但我觉得scikit-learn没有找到簇长度的方法(或者到目前为止我还没有看到它).是否有一种巧妙的方法来获取每个集群的集群长度或与集群相关的许多点？我目前有这个相当繁琐的代码,我发现它的长度为1的簇,需要通过测量点之间的欧几里德距离来添加其他点,并且必须更新标签import numpy as npfrom cluste...

KMeans聚类算法的缺陷及改进方法

轻舟已过万重山

05-17

1万+

文章目录K-means 聚类算法KMeans算法的缺陷及改进方法 K-means 聚类算法特点对初始化敏感。初始点选择的不同，可能会产生不同的聚类结果最终会收敛。不管初始点如何选择，最终都会收敛选择K个点作为初始质心 repeat 将每个点指派到最近的质心，形成K个簇重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 KMeans算法的缺陷及改进方法 (1) K-Means聚类算法需要用户事先指定聚类的个数k值.在很多时候,在对数据集进

SQLServer：介质簇计数缺失的介质簇序列号

weixin_30825581的博客

08-10

1103

https://shiyousan.com/post/635886596017415485 http://www.cnblogs.com/yc-755909659/p/3725940.html 错误描述：标题: Microsoft SQL Server Management Studio------------------------------ 备份介质集不完整。文件: D:\C...

python中使用k-means聚类.zip_k-means聚类算法_python_python 用kmeans_聚类_聚类 P

07-15

在Python编程环境中，K-Means聚类是一种广泛使用的无监督机器学习算法，用于将数据集划分成不同的簇。这个算法基于一个简单的概念：通过迭代调整数据点的分类，使得同一簇内的数据点尽可能接近，而不同簇之间的数据...

K-means_demo_k-means_DEMO_聚类分析_

10-04

K-means算法是一种广泛应用的无监督...总的来说，K-means聚类分析是数据分析中的重要工具，DEMO项目提供了一个实践和理解该方法的平台。通过学习和改进这个DEMO，我们可以更好地理解和应用K-means算法解决实际问题。

详解Java实现的k-means聚类算法

08-28

3. 质心：质心是指每个簇的中心点，k-means聚类算法的主要思想是将相似的数据点聚类到一起，形成不同的簇，并计算每个簇的质心。 Java实现的k-means聚类算法主要分为以下几个步骤： 1. 数据准备：读取数据源，准备...

数据集.rar_uci_uci聚类数据_聚类_聚类数据集_聚类数据集

07-14

在使用这些算法时，需要考虑的因素包括选择合适的距离度量（如欧氏距离、曼哈顿距离或余弦相似度），确定合适的聚类数量（对于K-means尤为关键），以及处理异常值和缺失值。在进行聚类分析时，我们通常会进行数据...

knn.zip_knn是聚类吗_knn聚类_大数据聚类_大数据聚类

09-21

传统的聚类算法如K-Means、层次聚类等在大数据环境下可能会面临挑战，因为它们可能无法有效地处理高维数据和大规模数据集。 KNN在聚类中的应用是基于以下思想：将每个数据点看作一个类别，并寻找与其最近的K个邻居...

多种方法（聚类、衍生变量、多重筛选、损失函数）解决解决异常值识别效果不佳问题（含2022年全国服务外包大赛实例）

如果没有躺赢的命，那就站起来奔跑，你的努力一定会对得起这一路的颠沛流离。

04-22

2151

我们以2022年全国服务外包大赛的A03题目作为示例。问题的主要任务时找出商品的销量异常和价格异常，提供4个月的商品信息数据，共1700万余条，4个月的店铺信息数据，共60万余条，强调时间复杂度空间复杂度、异常值识别率和准确率。我们用店铺分析辅助商品的异常，以提高可信度和准确率。店铺部分数据链接：https://pan.baidu.com/s/1iAp-s2JwG_YTB35BevMNyQ 提取码：jhnb 但是由于数据分布多样，异常店铺往往和奢侈品店铺以及火爆店铺同时出现，大大降低了我

数据学习(5)·K-means 聚类和PCA算法

白日梦想家

11-24

3545

作者的课堂笔记humminwang@163.com Preview K-means 聚类主成分分析（Principal Component Analysis）无监督学习和有监督学习类似，但是数据没有标签。给定输入数据，发现简化的特征，同时和输入的特征拥有同样的信息量。一般来说，好的表示一般是低维度的，或者是稀疏表示的，也就是说大部分是0，又或者是独立的表示。 ...

无监督学习之K-Means

csdn_kelly的博客

05-09

339

1.K-Means要完成的事情 1.1簇分类遍历所有数据，判断其与聚类中心点的距离，将与划分到与其最近的点的一类 1.2移动聚类中心将K个聚类中心点移动到其所在点的均值处若出现某一个聚类中心点没有点，要么重新初始化所有的据类中心点，要么删除该点，根据实际情况选择 2.优化目标 3.如何随机初始化？如何避开局部最优？保证K<m,然后从训练样本中随机挑选K个样本作为聚类中心点。（k在2-10之间时，多次随机初始化可以得到局部最优，大于10后，多次随机初始化的效果不太好）

K-means聚类算法

BENULL的博客

11-25

496

聚类试图将数据集中的样本划分为若干个通常是不相交的子集, 每个子集称为一个“簇”(cluster) 通过这样的划分, 每个簇可能对应于一些潜在的概念(类别), 需说明的是, 这些概念对聚类算法而言事先是未知的, 聚类过程仅能自动形成簇结构, 簇所对应的概念语义需由使用者来把握

【数据挖掘】K-Means聚类算法

cout0

07-08

1306

本文源代码下载数据挖掘的过程聚类分析聚类分析是根据数据本身结构特征对数据点进行分类的方法。实质是按照彼此距离的远近将数据分为若干个类别，以使得类别内数据的“差异性”尽可能小(即“同质性”尽可能大)，类别间“差异性”尽可能大。聚类算法聚类的目标：将一组数据分成若干组，组内数据是相似的，而组间数据是有较明显差异。与分类区别：分类与聚类最大的区别在于分类...

Kmeans聚类

qq_25174485的博客

07-01

1840

Kmeans聚类聚类图特征处理

k-means聚类算法原理与参数调优详解