一、K-Means算法
无监督学习区别于监督学习算法,无监督学习中没有标签y,算法需要根据输入的数据集直接将其进行区分为各簇,每簇数据有其聚类中心。K-Means算法为一种无监督学习算法,可以实现算法自动区分数据集中不同簇。
实现K-Means算法可以自己编写函数实现,也可以调用python中的KMeans包。
二、实现K-Means算法
1)编写函数实现K-Means算法
导入运算包。
import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
from scipy.io import loadmat
定义函数,用于寻找数据点的最近的聚类中心。输入参数为数据集X、聚类中心,返回一个一维数组,其长度与X的数据点个数相同,每个索引对应的值为该点对应的聚类中心。
def find_closest_centroid(X,centroid):
m = X.shape[0]
k = centroid.shape[0]
idx = np.zeros(m) #一维向量idx,大小为数据集中的点的个数,用于保存每一个X的数据点最小距离点的是哪个聚类中心
for i in range(m):
min_dist = 1000000 #每个数据点都要初始化距离
for j in range(k):
dist = np.sum((X[i,:]-centroid[j,:])**2) #计算数据点到聚类中心距离代价的公式,X中每个点都要和每个聚类中心计算
if dist < min_dist:
min_dist = dist
idx[i] = j #idx中索引为i,表示第i个X数据集中的数据点距离最近的聚类中心的索引
return idx #返回的是X数据集中每个数据点距离最近的聚类中心
提取数据,此数据为二位数据点集,自定义三个聚类中心,尝试调用寻找聚类中心的函数。
data = loadmat("E:\\Pycharm\\workspace\\ex_Andrew\\ex7_Andrew\\ex7data2.mat")
X = data['X'] #数据集shape(300,2)
initial_centroids = np.array([[3,3],[6,2],[8,5]]) #随机初始化三个聚类中心,二维数组,三行两列(3,2)
idx = find_closest_centroid(X,initial_centroids) #idx值只有0,1,2三个值,代表聚类中心的索引
绘制二维图像,用seaborn包画图,使用matplotlib包也可以,画出的图像可以看到分为三簇,但颜色都一样。
data2 = pd.DataFrame(data.get('X'),columns=['X1','X2'])
sb.set(context='noteboo