Kmeans算法是机器学习里面用的相当多的一种聚类算法,属于半监督学习的范畴,如果你对数据科学很熟悉的话,R和Python都有相应的封装函数,这篇文章带你从R自带函数中解脱出来,进一步探索kmeans算法的内部并用R原生代码进行实现!
Kmeans算法分为如下几个步骤:
- 确定中心点的数量k,随即从数据中选取k个数据
- 计算数据点到每个中心点的距离(一般为欧式距离),确定每个点归类到最近点的类当中
- 去每一个类的数据均值作为新的中心带你,再次计算数据到中心点的位置
- 循环2,3步骤,直到中心点坐标不再变化或者变化很小
R语言的自带函数为kmeans(),输入参数为数据和质心数量和最大迭代次数,默认为10次,具体可参考R语言的kmeans文档,我们在这里不多做赘述,接下来我们根据上面的算法核心来编写R语言代码:
customKmeans<-function(dataset=NA,k=NA){
if(is.na(dataset) || is.na(k)){
stop("You must input valid parameters!!")
}
#计算两点之间欧式距离的函数
Eudist<-function(x,y){
distance<-sqrt(sum((x-y)^2))
return (distance)
}
rows.dataset<-nrow(dataset)
continue.change=TRUE
initPoint<-dataset[sample.int(rows.dataset,size = k),]
formerPoint<-initPoint
iterPoint<