Kmeans算法的R语言代码实现

最新推荐文章于 2024-07-05 23:11:55 发布

Ron_Lee_sdj

最新推荐文章于 2024-07-05 23:11:55 发布

阅读量5.8k

点赞数 4

分类专栏：机器学习 R 文章标签： R语言 kmeans 机器学习原生代码实现

本文链接：https://blog.csdn.net/Ron_Lee_sdj/article/details/85306802

版权

本文探讨了Kmeans聚类算法的原理，并详细介绍了如何使用R语言的原生代码实现这一过程。通过逐步解析算法的各个步骤，包括选择初始质心、计算数据点与质心的距离、更新质心等，读者可以深入理解Kmeans算法的内部工作机制。文中提供了R代码示例，并建议使用R的iris数据集进行实践操作。

摘要由CSDN通过智能技术生成

Kmeans算法是机器学习里面用的相当多的一种聚类算法，属于半监督学习的范畴，如果你对数据科学很熟悉的话，R和Python都有相应的封装函数，这篇文章带你从R自带函数中解脱出来，进一步探索kmeans算法的内部并用R原生代码进行实现！

Kmeans算法分为如下几个步骤：

确定中心点的数量k，随即从数据中选取k个数据
计算数据点到每个中心点的距离（一般为欧式距离），确定每个点归类到最近点的类当中
去每一个类的数据均值作为新的中心带你，再次计算数据到中心点的位置
循环2,3步骤，直到中心点坐标不再变化或者变化很小

R语言的自带函数为kmeans()，输入参数为数据和质心数量和最大迭代次数，默认为10次，具体可参考R语言的kmeans文档，我们在这里不多做赘述，接下来我们根据上面的算法核心来编写R语言代码：

customKmeans<-function(dataset=NA,k=NA){
  if(is.na(dataset) || is.na(k)){
    stop("You must input valid parameters!!")
  }

  #计算两点之间欧式距离的函数
  Eudist<-function(x,y){
    distance<-sqrt(sum((x-y)^2))
    return (distance)
  }
  
  rows.dataset<-nrow(dataset)
  continue.change=TRUE
  initPoint<-dataset[sample.int(rows.dataset,size = k),]
  formerPoint<-initPoint
  iterPoint<