一.数据背景
数据集是某网站下载的CD商品的数据集合,本次使用Python+Jupyter Notebook对数据集进行数据分析。数据集
二.理解数据:
数据集是TXT格式,大约有7万条数据。包含用户ID,购买日期,购买量及金额。数据清洗:
1)使用Pandas进行数据集读取,并给数据集加索引
import pandas as pd
import numpy as np
#给数据集合加横轴索引
columns=['user_id','order_dt','order_products','order_amount']
#读取文件集,并利依据空格进行数据拆分
df=pd.read_table('D:\BaiduNetdiskDownload\CDNOW_master.txt',names=columns,sep='\s+')
df.head()
2)查看数据集类型及大小:
#查看数据类型
df.info()
#查看数据集大小
df.describe()
因为数据集合中,order_dt 购买日期显示为整数型字段,后面可能用到月份的数据透视,所以这里进行数据转换成日期datetime格式,并增加一列与之对应的月份格式,方便后续数据调用。