目录
背景描述
本数据集汇集了某个电商平台的用户基本信息、行为习惯和互动数据。它包括用户的年龄、性别、居住地区、收入水平等基本属性,以及他们的兴趣偏好、登录频率、购买行为和平台互动等动态指标。
数据集关注的焦点在于电商领域,旨在通过用户行为的深入分析,揭示其偏好和需求。通过这些数据,商家能够更好地理解消费者,制定有效的市场策略,满足用户期望,推动业务发展。
数据说明
字段 | 说明 |
---|---|
User_ID | 每个用户的唯一标识符,便于追踪和分析。 |
Age | 用户的年龄,提供对人口统计偏好的洞察。 |
Gender | 用户的性别,使能性别特定的推荐和定位。 |
Location | 用户所在地区:郊区、农村、城市,影响偏好和购物习惯。 |
Income | 用户的收入水平,表明购买力和支付能力。 |
Interests | 用户的兴趣,如运动、时尚、技术等,指导内容和产品推荐。 |
Last_Login_Days_Ago | 用户上次登录以来的天数,反映参与频率。 |
Purchase_Frequency | 用户进行购买的频率,表明购物习惯和忠诚度。 |
Average_Order_Value | 用户下单的平均价值,对定价和促销策略至关重要。 |
Total_Spending | 用户消费的总金额,表明终身价值和购买行为。 |
Product_Category_Preference | 用户偏好的特定产品类别。 |
Time_Spent_on_Site_Minutes | 用户在电子商务平台上花费的时间,表明参与程度。 |
Pages_Viewed | 用户在访问期间浏览的页面数量,反映浏览活动和兴趣。 |
Newsletter_Subscription | 用户是否订阅了营销活动通知。 |
一:准备工作
导入需要用到的包,设置绘图时的字体,防止绘图时出现乱码。
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
如果你在后续运行kmeans算法是出现一些提示,那你可以忽略这些提示。只需要在这里加入两句话。
import warnings
warnings.filterwarnings('ignore')
将这种类型的警告忽视就可以了。
二:数据预处理
data = pd.read_csv("D:/每周挑战/user_personalized_features.csv")
data = data.iloc[:,1:]
data.head()
先导入数据,由于直接导入会将数据集中的序号这一列一并导入,我们又不需要序号这一列,因此我们直接将其删除。
data.info()
查看其信息。
<class 'pandas.core.frame.DataFrame'> RangeIndex: 1000 entries, 0 to 999 Data columns (total 14 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 User_ID 1000 non-null object 1 Age 1000 non-null int64 2 Gender 1000 non-null object 3 Location 1000 non-null object 4 Income 1000 non-null int64 5 I