R聚类算法-(K-Means算法)

聚类算法,属于无监督学习

K-Means算法

K-Means算法的目标,是把n个样本点划分到k个类中,使得每个点都属于离它最近的质心对应的类,以之作为聚类的标准。
质心:
指一个类,内部所有样本点的均值。
kmeans(x,centers)

  • x 待聚类的训练样本
  • centers 聚类的个数,也就是要分成多少类

代码实现:

pColumns <- c('Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width');

plot(iris[, c("Sepal.Length", "Sepal.Width")])

#分类模型训练
kmc <- kmeans(iris[, pColumns], 3);

table(iris$Species, kmc$cluster);  #查看分类概括  
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我知道了。关于你的问题,K-Means算法和Mini Batch K-Means算法都是聚类算法,它们都可以用于对数据集进行聚类。但是它们之间也存在一些区别。 K-Means算法的步骤如下: 1. 从数据集中随机选择k个点作为簇的中心点; 2. 对于每个数据点,计算它与每个簇中心点的距离,将它归为距离最近的簇; 3. 根据归类结果重新计算每个簇的中心点; 4. 重复2和3步,直到簇的中心点不再改变或达到最大迭代次数。 而Mini Batch K-Means算法K-Means算法的一种优化,它的主要改进在于每次只从数据集中随机选择一部分数据作为样本,而不是全部数据,来计算簇的中心点,从而减少计算量。具体步骤如下: 1. 从数据集中随机选择k个点作为簇的中心点; 2. 从数据集中随机选择一个小的批次(batch)数据; 3. 对于每个数据点,计算它与每个簇中心点的距离,将它归为距离最近的簇; 4. 根据归类结果重新计算每个簇的中心点,并将此批次数据用于更新中心点; 5. 重复2~4步,直到簇的中心点不再改变或达到最大迭代次数。 相比于K-Means算法,Mini Batch K-Means算法具有以下优点: 1. 计算速度更快,因为每次只需要计算一部分数据; 2. 可以处理大规模数据集,因为不需要将全部数据集加载到内存中; 3. 可以保持较好的聚类效果。 但是,Mini Batch K-Means算法也存在一些缺点,例如聚类效果可能不如K-Means算法稳定,因为每次只随机选择一部分数据进行计算,可能会导致某些数据点没有被考虑到。同时,Mini Batch K-Means算法需要调整一些超参数,例如批次大小和最大迭代次数等,以达到最佳效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值