这两天看了一些和K-means有关的文章,写一篇入门学习总结。
K-means是一种ML的无监督学习,也是一种聚类算法,和分类算法不同的是其没有特定的界限准则,也没有可预知的结果。
分类算法:肿瘤肿块的大小和良恶性之间的关系,新闻或者邮件进行区分是否垃圾等,通过一些数据的特征,通过学习计算回归方程,就会形成一些判别模式;
聚类算法:目的也是把数据分类,但是事先我是不知道根据什么特征去分的,完全是算法自己来判断各条数据之间的相似性,相似的就放在一起。在聚类的结论出来之前,我完全不知道每一类有什么特点,一定要根据聚类的结果通过人的经验来分析,看看聚成的这一类大概有什么特点。
聚类算法有很多种,K-Means是聚类算法中的最常用的一种。该算法最大的特点是好理解,运算速度快,但是只能应用于连续型的数据,并且一定要在聚类前需要手动指定要分成几类。
它有几个一般步骤:
1:输入n维的数据集;
2:选取k个数据点作为初始质心(可全随机,也可半随机:先选取一个全局质心,然后距离全局质心最远的k个点,作为k个初始质心,下面的代码实现是采取半随机方式);
3:根据k个初始质心,通过计算每点到每个质心的距离(距离的方式),对于每个点而言,属于当下距离最近的那个质心的簇(也就是一个群体),到最后每个点都会找到自己所在的群;
4:通过新的群,重新计算新的质心(对这个群内的所有点,求x和y…n维坐标的均值:(x1 + x2 +..) / n, (y1 + y2 +..) / n);
5:因为整个过程是收敛的,最后可以通过sse(误差平方和)来结束聚类过程。如果说变化比较小,也就是质心位置的移动几乎不发生改变了。如果说变化比较大,再次进行3步骤,不断迭代;
其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢?
总结为下:
(1)对于离群点和孤立点敏感;
(2)k值选择;
(3)初始聚类中心的选择;
(4)只能发现球状簇。
C/C++实现代码(以二维为例):
#include <bits/stdc++.h>
using namespace std;
const int MAXN = 1e4;
vector<int> V[MAXN];
struct node { //二维点集
double x;
double y;
}s[MAXN], mean[MAXN];
struct Node {
double dis;
int id;
}ss[MAXN];
bool cmp(Node a, Node b) {
return a.dis > b.dis;
}
//欧式距离
inline double Eul_dis(double x1, double y1, double x2, double y2) {
return sqrt((x1 - x2) * (x1 - x2) + (y1 - y2) * (y1 - y2));
}
//初始k个质心
inline void Get_centroid(int n, int &k) {
double init_x = 0.0, init_y = 0.0;
for(int i = 1; i <= n; ++i) {
printf("请输入第%d个数据坐标:", i);
scanf("%lf %lf", &s[i].x, &s[i].y);
init_x += s[i].x;
init_y += s[i].y;
}
init_x /= (double)n;
init_y /= (double)n; //选择一个初始全局质心
printf("初始一个质心:(%.2lf, %.2lf)\n", init_x, init_y);
for(int i = 1; i <= n; ++i) {
ss[i].dis = Eul_dis(init_x, init_y, s[i].x, s[i].y);
ss[i].id = i;
}
sort(ss + 1, ss + n + 1, cmp); //选择距离初始全局质心最远的k个点,作为初始的k个质心
printf("请输入您想收敛的数据群个数:");
scanf("%d", &k); //k个质心
for(int i = 1; i <= k; ++i) {
int cnt = ss[i].id;
mean[i].x = s[cnt].x;
mean[i].y = s[cnt].y;
}
}
//迭代更新质心
inline void K_means(int n, int k) {
double max_dis = 0.0, limit_dis = 0.05;
do { //我用的质心最大移动距离作为收敛条件,当然也可以用其他方法
for(int i = 1; i <= k; ++i) {
V[i].clear();
}
for(int i = 1; i <= n; ++i) { //枚举数据点和各个质心
double dis = -1.0;
int cnt;
for(int j = 1; j <= k; ++j) {
double ans = Eul_dis(s[i].x, s[i].y, mean[j].x, mean[j].y);
if(ans > dis) {
dis = ans;
cnt = j;
}
}
V[cnt].push_back(i); //使数据点对应其质心
}
for(int i = 1; i <= k; ++i) {
double sum_x = 0.0, sum_y = 0.0;
for(int j = 0; j < V[i].size(); ++j) {
int cnt = V[i][j];
sum_x += s[cnt].x;
sum_y += s[cnt].y;
}
double ans1 = sum_x / (double)V[i].size();
double ans2 = sum_y / (double)V[i].size();
max_dis = min(max_dis, Eul_dis(mean[i].x, mean[i].y, ans1, ans2));
mean[i].x = ans1; //更新质心坐标
mean[i].y = ans2;
}
}while(max_dis > limit_dis);
}
//打印结果
inline void Print_node(int n, int k) {
for(int i = 1; i <= k; ++i) {
printf("\n\n\n");
printf("第%d个簇的质心坐标:(%.2lf, %.2lf)\n", i, mean[i].x, mean[i].y);
printf("第%d个簇的数据个数:%d\n", i, V[i].size());
for(int j = 0; j < V[i].size(); ++j) {
int cnt = V[i][j];
printf("(%.2lf, %.2lf)\n", s[cnt].x, s[cnt].y);
}
}
}
int main() {
int n, k;
printf("请输入数据目标个数:");
scanf("%d", &n); //n个二维坐标点
Get_centroid(n, k); //得到初始的k个质心
K_means(n, k); //K-means迭代过程
Print_node(n, k); //输出结果
return 0;
}
ps:优化及空聚类等其他内容后续补充。。。