这里写自定义目录标题
Kaggle基于黑色星期五交易数据的用户画像分析—PYTHON
1 前言
黑色星期五可以简单理解为国外的双十一,是指十一月第四个星期五,各大商场都会推出大量的打折和优惠活动的日子。
2 研究目的
数据分析不是为了分析而分析,而是要通过数据分析来达到某种目的。对黑色星期五销售数据进行分析,是希望通过数据分析来更好地了解客户购买行为。
针对数据提供的信息,主要从这几个方面去分析:
3 数据说明与处理
3.1数据来源和说明
数据来源于kaggle---------< Black Friday > https://www.kaggle.com/mehdidag/black-frida 。
黑色星期五可以简单理解为国外的双十一,是指十一月第四个星期五,各大商场都会推出大量的打折和优惠活动的日子。
数据是关于零售商店中黑色星期五的53万条零售商店中进行的交易数据,共包含12个字段。
序号 | 字段名 | 数据类型 | 字段描述 | 备注 |
---|---|---|---|---|
1 | User_ID | String | 用户ID | |
1 | Product_ID | String | 商品ID | |
3 | Gender | String | 性别 | F:女,M:男 |
4 | Age | String | 年龄 | 7个年龄段 |
5 | Occupation | String | 职业 | 用0-20表示 |
6 | City_Category | String | 城市类别 | A,B,C |
7 | Stay_In_Current_City_Years | Integer | 居住城市年数 | 0,1, 2, 3, 4+ |
8 | Marital_Status | Integer | 婚姻状况 | 0:已婚,1:未婚 |
9 | Product_Category_1 | Integer | 产品类别1 |
3.2数据预处理
3.2.1查看数据详情
df = pd.read_csv(r'E:\DATA\BlackFriday.csv')
df.shape
df.info()
print(df.describe())
print(df.head(10))
3.2.2修改列名
为了方便看,可以先对列名进行重命名成中文。
df = df.rename(columns={'User_ID': '用户ID', 'Product_ID': '商品ID', 'Gender': '性别', 'Age': '年龄', 'Occupation': '行业', 'City_Category': '城市类别', 'Stay_In_Current_City_Years': '居住城市年数', 'Marital_Status': '婚姻状况', 'Product_Category_1': '产品类别1', 'Product_Category_2': '产品类别2', 'Product_Category_3': '产品类别