【机器学习】Kmeans的C++实现及空簇的产生原因

Shwan_Ma

于 2018-04-26 17:02:57 发布

阅读量4.4k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/shwan_ma/article/details/80096408

版权

Kmeans在无监督学习中，由于其非常容易实现，所以常常被用来聚类。但是他的缺点也需要注意：
1）Kmeans由于只适用于球形数据，这个原因来自于他的欧式距离来衡量相似度。如果数据分布不是球形的，则最后聚类结果往往不会太理想。
2）Kmeans 非常容易收敛到局部最小值，而且在大规模数据集上收敛较慢。
3）Kmeans极其容易产生空簇。

下面举一个Kmeans 空簇产生的一个例子
1. 假设有下面数据

2. 初始分类：

初始分类形成(1，2，3，7)一类，(4，5)一类，(6)一类
可以猜测的是，初始簇中心选择为3，5，6

3.进一步更新类中心

在这一步中，第二类中的原子已经为空，形成空簇，无法进行更新类中心。
具体解决算法网上有很多，我就不列出来了。

C++实现：

#include <iostream>
#include <vector>
#include <string>
#include <fstream>
#include <random>
#include <cmath>
using namespace std;

vector<vector<double>> readFile(const string filename, int col) {
    ifstream infile;
    vector<vector<double>> alldata;
    infile.open(filename);

最低0.47元/天解锁文章

Shwan_Ma

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】Kmeans的C++实现及空簇的产生原因

Kmeans在无监督学习中，由于其非常容易实现，所以常常被用来聚类。但是他的缺点也需要注意： 1）Kmeans由于只适用于球形数据，这个原因来自于他的欧式距离来衡量相似度。如果数据分布不是球形的，则最后聚类结果往往不会太理想。 2）Kmeans 非常容易收敛到局部最小值，而且在大规模数据集上收敛较慢。 3）Kmeans极其容易产生空簇。下面举一个Kmeans 空簇产生的一个例子 1. ...
复制链接

扫一扫

专栏目录