import pandas as pd
#读取文件
data= pd.read_csv('./dataset.csv')
########################### 查看数据概览 ###########################
data.head()
# data.info()
# data.shape
# #非空统计
# data.count()
# data.isnull().sum()
# # 拓展,获取含有空值的行
# data[data.isnull().T.any()]
########################### 查看数据概览 ###########################
####################################### 清洗数据 #######################################
# 将其转化成时间(ShipDate,OrderDate均为object,需要先转化成时间)
data['ShipDate'] = pd.to_datetime(data['ShipDate'])
data['OrderDate'] = pd.to_datetime(data['OrderDate'])
#data.info()
#找出发货时间早于下单日期的记录
data[data['ShipDate']
#删去发货时间早于下单日期的记录,且在原数据上进行修改
data.drop(index=data[data['ShipDate']
#data
#查看是否有销售额小于0的记录
data[data.Sales<0]
#RowID不重复的个数 (经过上面的数据处理后 data.shape#(51097, 24),不重复的为51094)
data.RowID.unique().size
#取出重复的记录
data[data.RowID.duplicated()]
#删去RowID重复的记录,且在原数据上进行修改
data.drop(index=data[data.RowID.duplicated()].index, inplace=True)
#data.info()
#1.查看ShipMode空值
# data[data.ShipMode.isnull()]
# data.ShipMode
#2.对空值进行修补
#从选择的某个轴 返回这个众数, 如果缺失就是用NaN填充, 然后 轴上可能会有多个众数,所以这个函数返回的类型是一个dateframe
# data.ShipMode.mode()[0]
#进行空值填充
data['ShipMode'].fillna(va