KMeans聚类:K均值聚类是一种无监督的学习算法,它试图根据数据的相似性对数据进行聚类。无监督学习意味着不需要预测结果,算法只是试图在数据中找到模式。在k均值聚类中,我们指定希望将数据分组到的聚类数。该算法将每个观察随机分配到一个集合,并找到每个集合的质心。然后,该算法通过两个步骤进行迭代:将数据点重新分配到质心最近的聚类。计算每个簇的新质心。重复这两个步骤,直到集群内的变化不能进一步减少。聚类内偏差计算为数据点与其各自聚类质心之间的欧几里得距离之和。
在本文中,我们将对葡萄酒数据集进行聚类,并在使用PCA进行降维后对其进行可视化。
导入所需库
我们将首先导入一些有用的Python库,如Pandas,Seaborn,Matplotlib和SKlearn,以执行复杂的计算任务。
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_wine
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
导入数据集
这些数据是对生长在意大利同一地区但来自三个不同品种的葡萄酒进行化学分析的结果。分析确定了三种葡萄酒中每种葡萄酒中13种成分的含量。
df = load_wine(as_frame=True)
df = df.frame
df.head()
输出
因为我们在这里做的是无监督学习。因此,我们从数据集中删除目标Customer_Segment列。
df.drop('target', axis =1, inplace=True)
# Check the data informations
df.info()
输出
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 alcohol 178 non-null float64
1 malic_acid 178 non-null float64
2 ash 178 non-null float64
3 alcalinity_of_ash 178 non-null float64
4 magnesium 178 non-null float64
5 total_phenols 178 non-null float64
6 flavanoids 178 non-null float64
7 nonflavanoid_phenols 178 non-null float64
8 proanthocyanins 178 non-null float64
9 color_intensity 178 non-null float64
10 hue 178 non-null float64
11 od280/od315_of_diluted_wines 178 non-null float64
12 proline 178 non-null float64
dtypes: float64(13)
memory usage: 18.2 KB
数据标准化
scaler =StandardScaler()
features =scaler.fit(df)
features =features.transform(df)
# Convert to pandas Dataframe
scaled_df =pd.DataFrame(features,columns=df.columns)
# Print the scaled data
scaled_df.head(2)
输出
一般来说,K-Means需要未标记的数据才能运行。
因此,使用没有标签的数据来执行K-means聚类。
X=scaled_df.values
肘部方法用于确定聚类的数量
wcss = {}
for i in range(1, 11):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(X)
wcss[i] = kmeans.inertia_
plt.plot(wcss.keys(), wcss.values(), 'gs-')
plt.xlabel("Values of 'k'")
plt.ylabel('WCSS')
plt.show()
从上图中我们可以看到,在k=3时,它像一个肘部一样转动。因此,我们可以说给定数据集的正确聚类数是3。
KMeans聚类
让我们对n_clusters=3执行KMeans聚类。
kmeans=KMeans(n_clusters=3)
kmeans.fit(X)
各个聚类中心坐标:
kmeans.cluster_centers_
输出
array([[ 0.16490746, 0.87154706, 0.18689833, 0.52436746, -0.07547277,
-0.97933029, -1.21524764, 0.72606354, -0.77970639, 0.94153874,
-1.16478865, -1.29241163, -0.40708796],
[-0.92607185, -0.39404154, -0.49451676, 0.17060184, -0.49171185,
-0.07598265, 0.02081257, -0.03353357, 0.0582655 , -0.90191402,
0.46180361, 0.27076419, -0.75384618],
[ 0.83523208, -0.30380968, 0.36470604, -0.61019129, 0.5775868 ,
0.88523736, 0.97781956, -0.56208965, 0.58028658, 0.17106348,
0.47398365, 0.77924711, 1.12518529]])
labels_每个样本所属的聚类的索引。
kmeans.labels_
输出
array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 0, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0])
应用PCA降维
主成分分析是一种将高维数据转换为低维数据,同时保留尽可能多的信息的技术。
- 它用于解释和可视化数据。
- 变量的数量减少,这简化了进一步的分析。
然后,我们可以查看PCA分量,即特征空间中的主轴,它们表示数据集中最大方差的方向。这些分量按explained_variance_排序。
使用主成分分析(PCA)将数据集从15个特征最小化为2个特征。
pca=PCA(n_components=2)
reduced_X=pd.DataFrame(data=pca.fit_transform(X),columns=['PCA1','PCA2'])
#Reduced Features
reduced_X.head()
输出
使用PCA减少聚类中心
centers=pca.transform(kmeans.cluster_centers_)
# reduced centers
centers
输出
array([[-2.72003575, -1.12565126],
[-0.03695661, 1.77223945],
[ 2.2761936 , -0.93205403]])
绘制基于PCA 1和PCA 2的聚类图
plt.figure(figsize=(7,5))
# Scatter plot
plt.scatter(reduced_X['PCA1'],reduced_X['PCA2'],c=kmeans.labels_)
plt.scatter(centers[:,0],centers[:,1],marker='x',s=100,c='red')
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.title('Wine Cluster')
plt.tight_layout()
PCA 1和PCA 2对聚类的影响
如果我们真的想减少数据集的大小,主成分的最佳数量要比原始数据集中的变量数量少得多。
pca.components_
输出
array([[ 0.1443294 , -0.24518758, -0.00205106, -0.23932041, 0.14199204,
0.39466085, 0.4229343 , -0.2985331 , 0.31342949, -0.0886167 ,
0.29671456, 0.37616741, 0.28675223],
[-0.48365155, -0.22493093, -0.31606881, 0.0105905 , -0.299634 ,
-0.06503951, 0.00335981, -0.02877949, -0.03930172, -0.52999567,
0.27923515, 0.16449619, -0.36490283]])
基于PCA1-2特征的热力图
component_df=pd.DataFrame(pca.components_,index=['PCA1',"PCA2"],columns=df.columns)
# Heat map
sns.heatmap(component_df)
plt.show()