数据分析系列之python语言中的聚类分析

最新推荐文章于 2024-04-26 21:19:27 发布

琅晓琳

最新推荐文章于 2024-04-26 21:19:27 发布

阅读量649

点赞数

分类专栏：数据分析文章标签：聚类算法 python 机器学习人工智能

本文链接：https://blog.csdn.net/langxiaolin/article/details/116570381

版权

数据分析专栏收录该内容

26 篇文章 1 订阅

订阅专栏

1 基础算法
(1) K-means算法：对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。
(2) K-means算法是局部最优解，初始聚类中心一般是随机选择，有可能运行两次的结果稍有不同。
(3) 距离公式常采用欧式距离和余弦相似度公式，前者越小代表距离越小，后者越大代表越相似。

2 算法实现

import numpy as np
from scipy.cluster.vq import * vq,kmeans,whiten
listA=[86.0,72.0,94.0,83.0]
listB=[89.0,85.0,97.0,93.0]
listC=[86.0,76.0,96.0,82.0]
data=np.array([listA,listB,listC])
whiten=whiten(data)
#kmeans功能是对数据进行聚类，2代表类别，返回结果是元组
#A,_表示只需要取元组的第一个内容
centroids,_=kmeans(whiten,2)
#vq是矢量量化函数
result,_=vq(whiten,centroids)
print(result)

3 scikit learn工具包解决方法

import numpy as np
from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
import matplotlib.pyplot as plt
from sklearn import datasets
listA=[86.0,72.0,94.0,83.0]
listB=[89.0,85.0,97.0,93.0]
listC=[86.0,76.0,96.0,82.0]
X=np.array([listA,listB,listC])
#fit是一个训练过程
kmeans=KMeans(n_clusters=2).fit(X)
#predict是一个预测过程
pred=kmeans.predict(X)
print(pred)

#注意聚类和分类的区别
#直观理解起来就是：聚类是无标签的，分类是有标签的
#以下为分类的示例，利用SVM算法
from sklearn import datasets
from sklearn import svm
clf=svm.SVC(gamma=0.001,C=100.)
digits=datasets.load_digits()
#fit方法学习，data[:-1]从位置0到位置-1之前的数
clf.fit(digit.data[:-1],digits.target[:-1])
#predict方法预测，data[-1]最后一个位置的数
result=clf.predict(digit.data[-1])
print(result)

4 模型的选择和评估
“肘”方法：绘制出K值和SSE（误差平方和）的对应关系，找到趋于平缓的位置K值即为最佳聚类数。

参考资料：
https://www.icourse163.org/learn/NJU-1001571005?tid=1463102441&from=study#/learn/content?type=detail&id=1240380198&sm=1 用python玩转数据

琅晓琳

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析系列之python语言中的聚类分析

1 基础算法(1) K-means算法：对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。(2) K-means算法是局部最优解，初始聚类中心一般是随机选择，有可能运行两次的结果稍有不同。(3) 距离公式常采用欧式距离和余弦相似度公式，前者越小代表距离越小，后者越大代表越相似。2 算法实现import numpy as npfrom scipy.cluster.vq import * vq,kmeans,whitenlistA
复制链接

扫一扫