KMeans算法实现

最新推荐文章于 2022-07-07 15:15:00 发布

ujn784

最新推荐文章于 2022-07-07 15:15:00 发布

阅读量250

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42365868/article/details/90727584

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

import numpy as np

def load_data(file_name):
f = open(file_name)
data = []
for line in f.readlines():
row = []
lines = line.strip().split(’\t’)
for x in lines:
row.append(float(x))
data.append(row)
f.close()
return np.mat(data)

def distance(vecA, vecB):
distance = (vecA - vecB) * (vecA - vecB).T
return distance

def randCent(data, k):
‘’’
随机初始化聚类中心
input: data(需要分类的数据，mat); k(类别个数，int)
output: 中心点的坐标
‘’’
n = np.shape(data)[1]
centroids = np.mat(np.zeros([k, n]))
for j in range(n):
rangeJ = np.max(data[:, j]) - np.min(data[:, j])
centroids[:, j] = np.min(data[:, j]) * np.mat(np.ones((k , 1)))
+ np.random.rand(k, 1) * rangeJ
return centroids

def kmeans(data, k, centroids):
‘’’
分类
input: data(需要分类的数据);k（类别个数）; initial centroids
output: final centroids, subCenter
‘’’
m, n = np.shape(data) # m: 样本个数，n: 特征维数
subCenter = np.mat(np.zeros((m, n)))# 初始化每一个样本的分类结果，第一列记录类别，第二列记录与聚点的距离
change = True
while change:
for i in range(m):
change = False
minDist = np.inf
minIndex = 0
for j in range(k):
dist = distance(data[i, ], centroids[j, ])
if dist < minDist:
minDist = dist
minIndex = j
if subCenter[i, 0] != minIndex:
change = True
subCenter[i, ] = np.mat([minIndex, minDist])
# 分类完成后，重新计算聚类中心, 大循环的是种类
for j in range(k):
sum_all = np.mat(np.zeros((1, n)))
r = 0
for i in range(m):
if subCenter[i, 0] == j:
sum_all += data[i, 1]
r += 1
for z in range(n):
try:
centroids[j, z] = sum_all[0, z] / r
except:
print(‘r is zero’)
return subCenter, centroids

def save_model(file_name, source):
f = open(file_name, ‘w’)
m, n = np.shape(source)
for i in range(m):
temp = []
for j in range(n):
temp.append(str(source[i, j]))
f.write(’\t’.join(temp) + ‘\n’)
f.close()

if name == ‘main’:
k = 4
file_path = ‘kmeans.txt’
print(’---------------1. 载入数据---------------’)
data = load_data(file_path)
print(’---------------2. 随机初始化聚类中心---------------’)
init_centroids = randCent(data, k)
print(‘The centroids: %s’ % init_centroids)
print(’---------------3. 执行kmeans分类---------------’)
subcen, fin_centroids = kmeans(data, k, init_centroids)
print(’---------------4. 输出分类结果到文本---------------’)
save_model(‘sub.txt’, subcen)
save_model(‘center.txt’, fin_centroids)