机器学习第九章聚类Kmeans练习(西瓜数据集4.0)

一、代码部分

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams["font.sans-serif"] = ["SimHei"]

class Kmeans:
    def __init__(self,k,epochs,data):
        '''
        :param k: 聚类族数
        :param epochs: 迭代轮数
        :param data: 西瓜数据集二维数组
        '''
        self.k = k
        self.epochs = epochs
        self.data = data
        self.center_points = []
        # 获取初始随机的聚类中心点
        for i in range(self.k):
            self.center_points.append(self.data[np.random.randint(0, len(self.data))])
        self.center_points = np.array(self.center_points, dtype=float)

    def calc_dist(self,a):
        dist = (self.center_points - a)**2
        mean_dists = np.mean(dist,axis=1)
        return mean_dists.argmin()

    def process_iter(self):
        # kmeans核心迭代过程
        for i in range(self.epochs):
            self.cluster = {}
            for i in range(len(self.data)):
                index = self.calc_dist(self.data[i])
                if index not in self.cluster:
                    self.cluster[index] = [self.data[i]]
                else:
                    self.cluster[index].append(self.data[i])
            self.upgrade()

    # 更新中心簇
    def upgrade(self):
        for i in range(self.k):
            # print(self.cluster[i])
            self.center_points[i] = np.array(self.cluster[i]).mean(axis=0)

    def get_cluster(self):
        return self.cluster

    # 绘图描点函数
    def plot_scatter(self):
        # 散点
        color = ['b','c','g','k','m','r','w','y']
        for i in range(self.k):
            x = np.array(self.cluster[i])[:,0]
            y = np.array(self.cluster[i])[:,1]
            plt.scatter(x,y,c=color[i])
        print(self.center_points)
        # 标记中心向量点
        x = self.center_points[:,0]
        y = self.center_points[:,1]
        plt.scatter(x,y,marker='+',c='r')

        plt.title('西瓜数据集4.0聚类结果'+'epoch{}'.format(self.epochs))
        plt.xlabel('密度')
        plt.ylabel('甜度')
        plt.show()

def load_data():
    data = pd.read_csv("watermelon4.0.csv")
    data = pd.DataFrame(data)
    print(data,data.shape)
    data_t = []
    len = data.shape[0]
    for i in range(len):
        data_t.append([data["density"][i],data["sugercontent"][i]])
    return data_t

def main():
    data = load_data()
    kmeans = Kmeans(3,100,data)
    kmeans.process_iter()
    print(kmeans.get_cluster())
    kmeans.plot_scatter()


if __name__ == '__main__':
    main()

二、实验结果

2.1 聚类(三个中心向量)

在这里插入图片描述

2.2 聚类(四个中心向量)

在这里插入图片描述

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值