数据集来自DataFountain,一共包含200名顾客,记录包含顾客的ID,性别,年龄,收入和支出分数。首先先查看一下数据的前五行
1、描述分析
df = pd.read_csv('Mall_Customers.csv', index_col=0)
df.columns = [ 'Gender', 'Age', 'Income', 'Score']
df.head()
在进行聚类之前,首先进行描述性分析,了解一下顾客的大体情况。
年龄分布
df.Age.plot(kind='kde')
plt.xlabel('年龄')
plt.ylabel('和密度值')
年龄大致呈正态分布,大多数分人年龄在20-60之间,这个年龄段为此商家的消费主力。
收入分布
df.Income.plot(kind='kde')
plt.xlabel('收入')
plt.ylabel('和密度值')
收入也整体呈正态分布,消费的主力人群收入为3-10万美元之间。
男女比例
男女消费能力比较