1 项目背景
本次分析数据来源CDNow网站的用户在1997年1月1日至1998年6月30日期间内购买CD订单明细,对订单明细进行RFM模型的K-Means聚类分析并提出运营策略建议
2 数据探索import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#读取数据
columns = ['用户ID','订单时间','订单数量','订单金额']
#命名表头
data = pd.read_table("CDNOW.txt",names = columns,sep = '\s+')
data.head()
#查看数据形状
data.shape
#数据类型和结构
data.info()
-- 每个数据一共4列,分别是用户ID、订单时间、订单数量、订单金额,数据类型都是数值型
3 数据预处理
3.1 重复值、缺失值、异常值# 重复值查看
data.duplicated().value_counts()
#删除重复值
data=data.drop_duplicates()
-- 删除255个重复值# 观察订单金额为0的值
data[data['订单金额']==0].describe()
-- 共有80个,订单数均为1,可能是未付款订单或免费活动,没有明显价值,可以剔除data=data.drop(index=data[data['订单金额']==0].index)
3.2 数据类型调整# 将订单时间转换为日期格式
data.订单时间=pd.to_datetime(data.订单时间,format = '%Y%m%d')
data.info()
3.3 数据准备data.订单时间.describe(include=