python聚类分析案例_python 聚类分析实战案例:K-means算法(原理源码)

K-means算法:

关于步骤:参考之前的博客

关于代码与数据:暂时整理代码如下:后期会附上github地址,上传原始数据与代码完整版,

各种聚类算法的对比:参考连接

Kmeans算法的缺陷

1.聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适

2.Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。#!usr/bin/env python

#_*_ coding:utf-8 _*_

import random

import math

'''

kMeans:2列数据对比,带有head

'''

#1.load data

def importData():

f = lambda name,b,d: [name, float(b), float(d)]

with open('birth-death-rates.csv', 'r') as inputFile:

return [f(*line.strip().split('\t')) for line in inputFile]

写入文件类型

#2. calculate Distancedef euclideanDistance(x,y):

return math.sqrt(sum([(a-b)**2 for (a,b) in zip(x,y)]))

#L=points,

def partition(points, k, means, d=euclideanDistance):

# print('means={}'.format(means))

thePartition = [[] for _ in means] # list of k empty lists

indices = range(k)

# print('indices={}'.format(indices))

for x in points:

#index为indices索引,调用d函数,计算每个值与聚类中心的距离,将其分类

closestIndex = min(indices, key=lambda index: d(x, means[index]))#实现X与每个Y直接的求解:key=lambda index: d(x, means[index])

thePartition[closestIndex].append(x)

return thePartition#3.寻找收敛点

def mean(points):

''' assume the entries of the list of points are tuples;

e.g. (3,4) or (6,3,1). '''

n = len(points)

# print(tuple(float(sum(x)) / n for x in zip(*points))) #*points将【[1,2],[2,3]】分割出来【1,2】

return tuple(float(sum(x)) / n for x in zip(*points)) #将最开始的[[4, 1], [1, 5]] 经过处理变成[(4, 1),(1, 5)]

def kMeans(points, k, initialMeans, d=euclideanDistance):

oldPartition = []

newPartition = partition(points, k, initialMeans, d)

while oldPartition != newPartition:

oldPartition = newPartition

newMeans = [mean(S) for S in oldPartition]

newPartition = partition(points, k, newMeans, d)

return newPartition

#0.函数调用初始中心点if __name__ == "__main__":

L = [x[1:] for x in importData()] # remove names

# print (str(L).replace('[','{').replace(']', '}'))

import matplotlib.pyplot as plt

'''

plt.scatter(*zip(*L))

plt.show()

'''

import random

k = 3

partition = kMeans(L, k, random.sample(L, k)) #L是集合,K分类个数,random.sample(L, k)中心点

plt.scatter(*zip(*partition[0]), c='b')#[[],[],[]]

plt.scatter(*zip(*partition[1]), c='r')

plt.scatter(*zip(*partition[2]), c='g')

plt.show()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
K-means聚类算法是一种常用的无监督学习算法,用于将一组数据分成不同的簇。它通过计算数据点与各个簇中心之间的距离,并将数据点分配到距离最近的簇中心,不断地更新簇中心的位置,直到达到收敛。 针对在线学习的需求,可以参考以下实现思路: 1. 初始化簇中心:随机选择k个数据点作为初始簇中心。 2. 随机选择一个新的数据点,并计算该数据点与所有簇中心的距离。 3. 将新的数据点分配到距离最近的簇中心。 4. 更新簇中心的位置:对于每个簇,计算该簇中所有数据点的平均值,将该平均值作为新的簇中心。 5. 重复第2-4步,直到达到收敛条件,如达到指定的迭代次数或簇中心的变化小于阈值。 基于以上思路,可以使用Python编写在线学习的K-means聚类算法源码。具体实现如下: ```python import numpy as np class KMeans: def __init__(self, k, max_iter=100, tol=1e-4): self.k = k self.max_iter = max_iter self.tol = tol def fit(self, X): # 初始化簇中心 self.centroids = X[np.random.choice(range(X.shape[0]), self.k, replace=False)] for _ in range(self.max_iter): # 分配数据点到簇中心 labels = self.assign_labels(X) # 更新簇中心的位置 new_centroids = self.update_centroids(X, labels) # 判断簇中心的变化是否小于阈值 if np.linalg.norm(new_centroids - self.centroids) < self.tol: break self.centroids = new_centroids def assign_labels(self, X): distances = np.sqrt(((X[:, np.newaxis] - self.centroids) ** 2).sum(axis=2)) return np.argmin(distances, axis=1) def update_centroids(self, X, labels): new_centroids = np.zeros_like(self.centroids) for i in range(self.k): new_centroids[i] = X[labels == i].mean(axis=0) return new_centroids ``` 以上是一个简单的在线学习的K-means聚类算法源码,可以根据实际需求进行适当修改和拓展,例如添加更复杂的初始簇中心选择方法或调整更新簇中心的策略。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值