吴恩达机器学习课后习题(K-Means算法)

一、K-Means算法

无监督学习区别于监督学习算法,无监督学习中没有标签y,算法需要根据输入的数据集直接将其进行区分为各簇,每簇数据有其聚类中心。K-Means算法为一种无监督学习算法,可以实现算法自动区分数据集中不同簇。
实现K-Means算法可以自己编写函数实现,也可以调用python中的KMeans包。

二、实现K-Means算法

1)编写函数实现K-Means算法

导入运算包。

import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
from scipy.io import loadmat

定义函数,用于寻找数据点的最近的聚类中心。输入参数为数据集X、聚类中心,返回一个一维数组,其长度与X的数据点个数相同,每个索引对应的值为该点对应的聚类中心。

def find_closest_centroid(X,centroid):
    m = X.shape[0]
    k = centroid.shape[0]
    idx = np.zeros(m) #一维向量idx,大小为数据集中的点的个数,用于保存每一个X的数据点最小距离点的是哪个聚类中心

    for i in range(m):
        min_dist = 1000000 #每个数据点都要初始化距离
        for j in range(k):
            dist = np.sum((X[i,:]-centroid[j,:])**2) #计算数据点到聚类中心距离代价的公式,X中每个点都要和每个聚类中心计算
            if dist < min_dist:
                min_dist = dist
                idx[i] = j #idx中索引为i,表示第i个X数据集中的数据点距离最近的聚类中心的索引
    return idx #返回的是X数据集中每个数据点距离最近的聚类中心

提取数据,此数据为二位数据点集,自定义三个聚类中心,尝试调用寻找聚类中心的函数。

data = loadmat("E:\\Pycharm\\workspace\\ex_Andrew\\ex7_Andrew\\ex7data2.mat")
X = data['X'] #数据集shape(300,2)
initial_centroids = np.array([[3,3],[6,2],[8,5]]) #随机初始化三个聚类中心,二维数组,三行两列(3,2)
idx = find_closest_centroid(X,initial_centroids) #idx值只有0,1,2三个值,代表聚类中心的索引

绘制二维图像,用seaborn包画图,使用matplotlib包也可以,画出的图像可以看到分为三簇,但颜色都一样。

data2 = pd.DataFrame(data.get('X'),columns=['X1','X2'])
sb.set(context='noteboo
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值