机器学习:kmeans可视化

接着上回的工作,对kmeans的结果进行可视化,搜索了一波,
普遍认为 tsne 能够将高维数据降到低维(2,3维),这样可视化之后,就能观察发现该组数据是否可以聚类
我这边,已经聚类过了,用tsne降维可视化一下
参考了这位小伙伴的博客:
https://blog.csdn.net/lbweiwan/article/details/82759670

我稍稍调整了一些代码,可视化顺便把中心点加进去了,需要注意的是,中心点必须和基础数据一并进行tsne降维,否则因为tsne算法的原因,分别计算得到值是不一样的,就不能放在一起画图(具体算法原理,上面链接有分享另一位小伙伴的)

下面是运行的代码,我这边先根据轮廓系数将k设为3

from sklearn.cluster import KMeans
km = KMeans(        n_clusters=3,
                        init='k-means++',
                        n_init=10,
                        max_iter=300,
                        random_state=0      )
km.fit(X_norm)
#将原始数据中的索引设置成得到的数据类别
X_out = pd.DataFrame(X_norm,index=km.labels_)
X_out_center = pd.DataFrame(km.cluster_centers_) #找出聚类中心
#将中心放入到数据中,一并tsne,不能单独tsne
X_outwithcenter=X_out.append(X_out_center)


#用TSNE进行数据降维并展示聚类结果
from sklearn.manifold import TSNE
tsne = TSNE()
tsne.fit_transform(X_outwithcenter) #进行数据降维,并返回结果
X_tsne = pd.DataFrame(tsne.embedding_, index = X_outwithcenter.index)
#将index化成原本的数据的index,tsne后index会变化

import matplotlib.pyplot as plt
#根据类别分割数据后,画图
d = X_tsne[X_tsne.index == 0]     #找出聚类类别为0的数据对应的降维结果
plt.scatter(d[0], d[1],c='lightgreen',
         		marker='o'				)
d = X_tsne[X_tsne.index == 1]
plt.scatter(d[0], d[1], c='orange',
         		marker='o'				)
d = X_tsne[X_tsne.index == 2]
plt.scatter(d[0], d[1], c='lightblue',
         		marker='o'				)
#取中心点,画出
d = X_tsne.tail(3)
plt.scatter(d[0], d[1], c='red',s=150,
         		marker='*'				)
plt.show()

得到下图,多运行几次得到图时不一样的,就是上下左右会颠倒:
在这里插入图片描述
在这里插入图片描述
emmm,可视化结果来看,效果并不好,按最后一张图看,他右上角分的一类,都是偏大的值,可能是的确有个概念想对于其他,他的参数值较大
比如norm之后的第80个概念,“超大盘”
在这里插入图片描述
还有这个概念,“保险重仓”
在这里插入图片描述

好吧,我现在想,对概念这样聚类筛选出好的概念,那我得有好的标准是什么,这样聚类貌似没什么意义,那如果我给出好的标准,就有点像监督学习了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值