吴恩达机器学习课后习题（K-Means算法）

最新推荐文章于 2023-05-05 01:13:13 发布

扶风自是晴

最新推荐文章于 2023-05-05 01:13:13 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：聚类算法 python 机器学习深度学习

本文链接：https://blog.csdn.net/qq_42333474/article/details/119725423

版权

一、K-Means算法

无监督学习区别于监督学习算法，无监督学习中没有标签y，算法需要根据输入的数据集直接将其进行区分为各簇，每簇数据有其聚类中心。K-Means算法为一种无监督学习算法，可以实现算法自动区分数据集中不同簇。
实现K-Means算法可以自己编写函数实现，也可以调用python中的KMeans包。

二、实现K-Means算法

1）编写函数实现K-Means算法

导入运算包。

import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
from scipy.io import loadmat

定义函数，用于寻找数据点的最近的聚类中心。输入参数为数据集X、聚类中心，返回一个一维数组，其长度与X的数据点个数相同，每个索引对应的值为该点对应的聚类中心。

def find_closest_centroid(X,centroid):
    m = X.shape[0]
    k = centroid.shape[0]
    idx = np.zeros(m) #一维向量idx，大小为数据集中的点的个数，用于保存每一个X的数据点最小距离点的是哪个聚类中心

    for i in range(m):
        min_dist = 1000000 #每个数据点都要初始化距离
        for j in range(k):
            dist = np.sum((X[i,:]-centroid[j,:])**2) #计算数据点到聚类中心距离代价的公式，X中每个点都要和每个聚类中心计算
            if dist < min_dist:
                min_dist = dist
                idx[i] = j #idx中索引为i，表示第i个X数据集中的数据点距离最近的聚类中心的索引
    return idx #返回的是X数据集中每个数据点距离最近的聚类中心

提取数据，此数据为二位数据点集，自定义三个聚类中心，尝试调用寻找聚类中心的函数。

data = loadmat("E:\\Pycharm\\workspace\\ex_Andrew\\ex7_Andrew\\ex7data2.mat")
X = data['X'] #数据集shape（300，2）
initial_centroids = np.array([[3,3],[6,2],[8,5]]) #随机初始化三个聚类中心，二维数组，三行两列（3，2）
idx = find_closest_centroid(X,initial_centroids) #idx值只有0，1，2三个值，代表聚类中心的索引

绘制二维图像，用seaborn包画图，使用matplotlib包也可以，画出的图像可以看到分为三簇，但颜色都一样。

data2 = pd.DataFrame(data.get('X'),columns=['X1','X2'])
sb.set

最低0.47元/天解锁文章

扶风自是晴

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习课后习题（K-Means算法）

一、K-Means算法无监督学习区别于监督学习算法，无监督学习中没有标签y，算法需要根据输入的数据集直接将其进行区分为各簇，每簇数据有其聚类中心。K-Means算法为一种无监督学习算法，可以实现算法自动区分数据集中不同簇。实现K-Means算法可以自己编写函数实现，也可以调用python中的KMeans包。二、实现K-Means算法1）编写函数实现K-Means算法导入运算包。import numpy as npimport pandas as pdimport seaborn as sb
复制链接

扫一扫