数据挖掘-数值型特征聚类

最新推荐文章于 2023-12-13 10:03:17 发布

winner8881

最新推荐文章于 2023-12-13 10:03:17 发布

阅读量530

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_22866291/article/details/90735755

版权

数据挖掘专栏收录该内容

21 篇文章 0 订阅

订阅专栏

cols = ['area','location', 'pv/uv', 'totalFloor', 'pv', 'shi']
cols_kmeans = []
for i in cols:
    data[i+'_kmeans'] = (data[i]- data[i].min())/(data[i].max() - data[i].min())
    cols_kmeans.append(i+'_kmeans')   

X = data.loc[:,cols_kmeans].values
for col in cols_kmeans:
    data.drop(col, axis = 1, inplace = True)
	
from sklearn.cluster import KMeans
wcss=[]
for i in range(1,20):
    kmeans = KMeans(n_clusters= i, init='k-means++', random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_) 

plt.plot(range(1,20), wcss)
plt.title('The Elbow Method')
plt.xlabel('no of clusters')
plt.ylabel('wcss')
plt.show()

kmeansmodel = KMeans(n_clusters= 10, init='k-means++', random_state=0)
y_kmeans= kmeansmodel.fit_predict(X)

plt.scatter(X[y_kmeans == 0, 0], X[y_kmeans == 0, 1], s = 100, c = 'red', label = 'Cluster 1')
plt.scatter(X[y_kmeans == 1, 0], X[y_kmeans == 1, 1], s = 100, c = 'blue', label = 'Cluster 2')
plt.scatter(X[y_kmeans == 2, 0], X[y_kmeans == 2, 1], s = 100, c = 'green', label = 'Cluster 3')
plt.scatter(X[y_kmeans == 3, 0], X[y_kmeans == 3, 1], s = 100, c = 'cyan', label = 'Cluster 4')
plt.scatter(X[y_kmeans == 4, 0], X[y_kmeans == 4, 1], s = 100, c = 'magenta', label = 'Cluster 5')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 300, c = 'yellow', label = 'Centroids')
plt.title('Clusters of customers')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.legend()
plt.show()

winner8881

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
数据挖掘-数值型特征聚类

cols = ['area','location', 'pv/uv', 'totalFloor', 'pv', 'shi']cols_kmeans = []for i in cols: data[i+'_kmeans'] = (data[i]- data[i].min())/(data[i].max() - data[i].min()) cols_kmeans.append(i...
复制链接

扫一扫

专栏目录