K-Means

最新推荐文章于 2023-12-12 20:27:06 发布

光尘92

最新推荐文章于 2023-12-12 20:27:06 发布

阅读量1.6k

点赞数

分类专栏： Machine Learning 文章标签： python 机器学习 kmeans算法

本文链接：https://blog.csdn.net/hanli1992/article/details/112532669

版权

Machine Learning 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

K-Means 是一种非监督学习，解决的是聚类问题。K 代表的是 K 类，Means 代表的是中心，可以理解这个算法的本质是确定 K 类的中心点，当找到了这些中心点，也就完成了聚类。

工作原理：

选取 K 个点作为初始的类中心点，这些点一般都是从数据集中随机抽取的；
将每个点分配到最近的类中心点，这样就形成了 K 个类，然后重新计算每个类的中心点；
重复第二步，直到类不发生变化，或者也可以设置最大迭代次数，这样即使类中心点发生变化，但是只要达到最大迭代次数就会结束。

构造函数

KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto')

n_clusters：即 K 值，一般需要多试一些 K 值来保证更好的聚类效果。可以随机设置一些 K 值，然后选择聚类效果最好的作为最终的 K 值；
init：即初始值选择的方式，默认是采用优化过的 k-means++ 方式，也可以自己指定中心点，或者采用 random 完全随机的方式。自己设置中心点一般是对于个性化的数据进行设置，很少采用。random 的方式则是完全随机的方式，一般推荐采用优化过的 k-means++ 方式；
n_init：初始化中心点的运算次数，默认是 10。程序是否能快速收敛和中心点的选择关系非常大，所以在中心点选择上多花一些时间，来争取整体时间上的快速收敛还是非常值得的。由于每一次中心点都是随机生成的，这样得到的结果就有好有坏，非常不确定，所以要运行 n_init 次, 取其中最好的作为初始的中心点。如果 K 值比较大的时候，可以适当增大 n_init 这个值；
max_iter：最大迭代次数，如果聚类很难收敛的话，设置最大迭代次数可以及时得到反馈结果，否则程序运行时间会非常长；
algorithm：k-means 的实现算法，有“auto”、“full”、“elkan”三种，一般来说建议直接用默认的"auto"。"full"采用的是传统的 K-Means 算法，“auto”会根据数据的特点自动选择是选择“full”还是“elkan”。

实例

数据

from sklearn.cluster import KMeans
from sklearn import preprocessing
import pandas as pd
import numpy as np
# 输入数据
data = pd.read_csv('data.csv', encoding='gbk')
train_x = data[["2019年国际排名","2018世界杯","2015亚洲杯"]]
# 规范化到[0,1]空间
min_max_scaler=preprocessing.MinMaxScaler()
train_x=min_max_scaler.fit_transform(train_x)
# kmeans算法
kmeans = KMeans(n_clusters=3)
# 对data数据进行k-Means聚类
kmeans.fit(train_x)
# 对data中每个样本计算最近的类
predict_y = kmeans.predict(train_x)
# 合并聚类结果，插入到原数据中
result = pd.concat((data,pd.DataFrame(predict_y)),axis=1)
result.rename({0:u'聚类'},axis=1,inplace=True)
print(result)

运行结果：

国家  2019年国际排名  2018世界杯  2015亚洲杯  聚类
0       中国         73       40        7   2
1       日本         60       15        5   0
2       韩国         61       19        2   0
3       伊朗         34       18        6   0
4       沙特         67       26       10   0
5      伊拉克         91       40        4   2
6      卡塔尔        101       40       13   1
7      阿联酋         81       40        6   2
8   乌兹别克斯坦         88       40        8   2
9       泰国        122       40       17   1
10      越南        102       50       17   1
11      阿曼         87       50       12   1
12      巴林        116       50       11   1
13      朝鲜        110       50       14   1
14      印尼        164       50       17   1
15      澳洲         40       30        1   0
16     叙利亚         76       40       17   1
17      约旦        118       50        9   1
18     科威特        160       50       15   1
19    巴勒斯坦         96       50       16   1

将微信开屏封面进行分割

# 加载图像，并对数据进行规范化
def load_data(filePath):
    # 读文件
    f = open(filePath,'rb')
    data = []
    # 得到图像的像素值
    img = Image.open(f)
    # 得到图像尺寸
    width, height = img.size
    for x in range(width):
        for y in range(height):
            # 得到点(x,y)的三个通道值
            c1, c2, c3 = img.getpixel((x, y))
            data.append([c1, c2, c3])
    f.close()
    # 采用Min-Max规范化
    mm = preprocessing.MinMaxScaler()
    data = mm.fit_transform(data)
    return np.mat(data), width, height

img, width, height = load_data('./weixin.jpg')

因为 jpg 格式的图像是三个通道 (R,G,B)，也就是一个像素点具有 3 个特征值。这里用 c1、c2、c3 来获取平面坐标点 (x,y) 的三个特征值，特征值是在 0-255 之间。为了加快聚类的收敛，需要采用 Min-Max 规范化对数据进行规范化。

将图像分割成 2 部分

# 用K-Means对图像进行2聚类
kmeans = KMeans(n_clusters=2)
kmeans.fit(img)
# 结果为一维向量
label = kmeans.predict(img)
# 将图像聚类结果，转化成图像尺寸的矩阵
label = label.reshape([width, height])
# 创建新图像pic_mark，用来保存图像聚类的结果，并设置不同的灰度值
pic_mark = image.new("L", (width, height))
for x in range(width):
    for y in range(height):
        # 根据类别设置图像灰度, 类别0：灰度值为255，类别1：灰度值为127
        pic_mark.putpixel((x, y), int(256/(label[x][y]+1))-1)
pic_mark.save("weixin_mark.jpg", "JPEG")

将聚类标识矩阵转化为不同颜色的矩阵：

from skimage import color
# 将聚类标识矩阵转化为不同颜色的矩阵
label_color = (color.label2rgb(label)*255).astype(np.uint8)
label_color = label_color.transpose(1,0,2)
images = image.fromarray(label_color)
images.save('weixin_mark_color.jpg')

使用 skimage 中的 label2rgb 函数来将 label 分类标识转化为颜色数值，因为颜色值范围是[0,255]，所以还需要乘以 255 进行转化。再转化为 np.uint8 类型，unit8 类型代表无符号整数，范围是 0-255 之间。

设置三维矩阵的转置，让第一维和第二维颠倒过来，也就是使用 transpose(1,0,2)，将原来的 (0,1,2）顺序转化为 (1,0,2) 顺序，即第一维和第二维互换。

fromarray 函数可以通过矩阵来生成图片。

光尘92

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
K-Means

K-Means 是一种非监督学习，解决的是聚类问题。K 代表的是 K 类，Means 代表的是中心，可以理解这个算法的本质是确定 K 类的中心点，当找到了这些中心点，也就完成了聚类。工作原理：选取 K 个点作为初始的类中心点，这些点一般都是从数据集中随机抽取的；将每个点分配到最近的类中心点，这样就形成了 K 个类，然后重新计算每个类的中心点；重复第二步，直到类不发生变化，或者也可以设置最大迭代次数，这样即使类中心点发生变化，但是只要达到最大迭代次数就会结束。...
复制链接

扫一扫