【个人比赛】天池数据达人赛:汽车产品聚类分析

汽车聚类分析与KMeans应用

原创

于 2021-11-10 11:11:29 发布 · 2.7k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #聚类算法 #数据分析

该博客介绍了一种使用KMeans进行汽车产品聚类的方法，旨在为竞品分析提供数据支持。首先，作者读取并检查数据，处理品牌字段的不规则命名，然后将分类变量转换为哑变量，接着进行数据清洗和归一化。通过计算轮廓系数确定最佳聚类数（n_clusters=20）。最终，应用KMeans进行聚类，并展示了聚类结果。

纯个人分享，若方法、代码有不当之处，请多批评指正。

本赛题以竞品分析为背景，通过数据的聚类，为汽车提供聚类分类。对于指定的车型，可以通过聚类分析找到其竞品车型。通过这道赛题，鼓励参赛者利用车型数据，进行车型画像的分析，为产品的定位，竞品分析提供数据决策。

首先是常规操作，加载第三方库。

# 加载第三方库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random
from sklearn.cluster import KMeans
# 统一量纲
from sklearn.preprocessing import MinMaxScaler as mms
# 根据轮廓系数选择合适的 n_clusters
from sklearn.metrics import silhouette_score

把数据读进来看看长什么样子。

# 读取数据
path = r'D:\汽车产品聚类分析\car_price.csv'
data = pd.read_csv(path)
data.head()

一共有26个字段，先看看各字段

最低0.47元/天解锁文章