数据挖掘之K均值(K-means)

本文介绍了如何使用Python编程计算样本间的欧氏距离和曼哈顿距离,以及如何计算质心。后续内容转向k-means算法,包括算法原理、流程和在红酒数据集上的应用,以及利用sklearn库进行聚类操作。
摘要由CSDN通过智能技术生成

第一关:距离度量

任务描述

本关任务:使用Python编写一个能计算样本间欧式距离与曼哈顿距离的方法。

相关知识

为了完成本关任务,你需要掌握:1.欧氏距离,2.曼哈顿距离。

欧氏距离

欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。

二维平面上点a(x1​,y1​),b(x2​,y2​)间的欧氏距离:

d12​=sqrt(x1​−x2​)2+(y1​−y2​)2

三维空间点a(x1​,y1​,z1​),b(x2​,y2​,z2​)间的欧氏距离:

d12​=sqrt(x1​−x2​)2+(y1​−y2​)2+(z1​−z2​)2

n维空间点a(x11​,x12​,...,x1n​),b(x21​,x22​,...,x2n​)间的欧氏距离(两个n维向量):

d12​=sqrtsumk=1n​(x1k​−x2k​)2

曼哈顿距离

顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”。

代码补充

#encoding=utf8    
import numpy as np

def distance(x,y,p=2):
    '''
    input:x(ndarray):第一个样本的坐标
          y(ndarray):第二个样本的坐标
          p(int):等于1时为曼哈顿距离,等于2时为欧氏距离
    output:distance(float):x到y的距离      
    ''' 
    #********* Begin *********#
    dis2 = np.sum(np.abs(x-y)**p)
    dis = np.power(dis2,1/p)
    return dis

    #********* End *********#

第二关:什么是质心

任务描述

本关任务:使用Python编写一个能计算质心的方法。

相关知识

为了完成本关任务,你需要掌握:1.欧氏距离。

欧氏距离

欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。

二维平面上点a(x1​,y1​),b(x2​,y2​)间的欧氏距离:

d12​=sqrt(x1​−x2​)2+(y1​−y2​)2

三维空间点a(x1​,y1​,z1​),b(x2​,y2​,z2​)间的欧氏距离:

d12​=sqrt(x1​−x2​)2+(y1​−y2​)2+(z1​−z2​)2

n维空间点a(x11​,x12​,...,x1n​),b(x21​,x22​,...,x2n​)间的欧氏距离(两个n维向量):

d12​=sqrtsumk=1n​(x1k​−x2k​)2

代码补充

#encoding=utf8
import numpy as np
#计算样本间距离
def distance(x, y, p=2):
    '''
    input:x(ndarray):第一个样本的坐标
          y(ndarray):第二个样本的坐标
          p(int):等于1时为曼哈顿距离,等于2时为欧氏距离
    output:distance(float):x到y的距离      
    '''
    #********* Begin *********#    
    dis2 = np.sum(np.abs(x-y)**p)
    dis = np.power(dis2,1/p)
    return dis
    #********* End *********#
   
    
#计算质心
def cal_Cmass(data):
    '''
    input:data(ndarray):数据样本
    output:mass(ndarray):数据样本质心
    '''
    #********* Begin *********#
    Cmass = np.mean(data, axis=0)
    #********* End *********#
    return Cmass

#计算每个样本到质心的距离,并按照从小到大的顺序排列
def sorted_list(data,Cmass):
    '''
    input:data(ndarray):数据样本
          Cmass(ndarray):数据样本质心
    output:dis_list(list):排好序的样本到质心距离
    '''
    #********* Begin *********#
    dis_list =[]
    for i in range(len(data)):
        dis_list.append(distance(Cmass,data[i][:]))
    dis_list = sorted(dis_list)
    #********* End *********#
    return dis_list

第三关:k-means算法流程

任务描述

本关任务:使用Python实现k-means算法,并根据红酒的13个特征对红酒数据进行聚类。

相关知识

为了完成本关任务,你需要掌握:1.k-means算法原理,2.k-means算法流程,3.如何确定k的值。

数据集介绍

数据集为一份红酒数据,一共有178个样本,每个样本有13个特征,这里不会提供你红酒的标签,你需要自己根据这13个特征对红酒进行聚类,部分数据如下图:

代码补充 

#encoding=utf8
import numpy as np

# 计算一个样本与数据集中所有样本的欧氏距离的平方
def euclidean_distance(one_sample, X):
    one_sample = one_sample.reshape(1, -1)
    distances = np.power(np.tile(one_sample, (X.shape[0], 1)) - X, 2).sum(axis=1)
    return distances

def cal_dis(old_centrodis, centrodis):
    dis = 0
    for i in range(old_centrodis.shape[0]):
        dis += np.linalg.norm(old_centrodis[i] - centrodis[i], 2)
        return dis

class Kmeans():
    """Kmeans聚类算法.
    Parameters:
    -----------
    k: int
        聚类的数目.
    max_iterations: int
        最大迭代次数. 
    varepsilon: float
        判断是否收敛, 如果上一次的所有k个聚类中心与本次的所有k个聚类中心的差都小于varepsilon, 
        则说明算法已经收敛
    """
    def __init__(self, k=2, max_iterations=500, varepsilon=0.0001):
        self.k = k
        self.max_iterations = max_iterations
        self.varepsilon = varepsilon
        np.random.seed(1)
    #********* Begin *********#
    # 从所有样本中随机选取self.k样本作为初始的聚类中心
    def init_random_centroids(self, X):
        m, n = X.shape
        center = np.zeros((self.k, n))
        for i in range(self.k):
            index = int(np.random.uniform(0, m))
            center[i] = X[index]
        return center

    # 返回距离该样本最近的一个中心索引[0, self.k)
    def _closest_centroid(self, sample, centroids):
        distances = euclidean_distance(sample, centroids)
        return np.argsort(distances)[0]
    # 将所有样本进行归类,归类规则就是将该样本归类到与其最近的中心
    def create_clusters(self, centroids, X):
        m, n = X.shape
        clusters = np.mat(np.zeros((m,1)))
        for i in range(m):
            index = self._closest_centroid(X[i], centroids)
            clusters[i] = index
        return clusters

    # 对中心进行更新
    def update_centroids(self, clusters, X):
        centroids = np.zeros([self.k, X.shape[1]])
        for i in range(self.k):
            pointInCluster = []
            for j in range(clusters.shape[0]):
                if clusters[j] == i:
                    pointInCluster.append(X[j])
            centroids[i] = np.mean(pointInCluster, axis=0)
        return centroids

    # 将所有样本进行归类,其所在的类别的索引就是其类别标签
    def get_cluster_labels(self, clusters, X):
        return

    # 对整个数据集X进行Kmeans聚类,返回其聚类的标签
    def predict(self, X):
        # 从所有样本中随机选取self.k样本作为初始的聚类中心
        centroids = self.init_random_centroids(X)
        clusters = []
        iter = 0
        # 迭代,直到算法收敛(上一次的聚类中心和这一次的聚类中心几乎重合)或者达到最大迭代次数
        while iter < self.max_iterations:
            iter +=1
            # 将所有进行归类,归类规则就是将该样本归类到与其最近的中心
            clusters = self.create_clusters(centroids, X)
            # 计算新的聚类中心
            old_centroids = centroids[:]
            centroids = self.update_centroids(clusters, X)
            if cal_dis(old_centroids, centroids) < self.varepsilon:
                break
            # 如果聚类中心几乎没有变化,说明算法已经收敛,退出迭代
        return np.array(clusters).reshape([X.shape[0], ])
    #********* End *********#
    

第四关:sklearn中的k-means

任务描述

本关任务::你需要调用 sklearn 中的K-means模型,对红酒数据进行聚类。

相关知识

为了完成本关任务,你需要掌握:1.KMeans

数据集介绍

数据集为一份红酒数据,一共有178个样本,每个样本有13个特征,这里不会提供你红酒的标签,你需要自己根据这13个特征对红酒进行聚类,部分数据如下图:

代码补充

 

#encoding=utf8
from sklearn.cluster import KMeans

def kmeans_cluster(data):
    '''
    input:data(ndarray):样本数据
    output:result(ndarray):聚类结果
    '''
    #********* Begin *********#
   # 创建KMeans模型,假设要分为3个类别
    kmeans = KMeans(n_clusters=3,random_state=888)
    # 使用KMeans模型对数据进行聚类
    result = kmeans.fit_predict(data)
    #********* End *********# 
    return result



完成!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值