文章总结了拿到原始数据后,用Python做数据预处理的常见操作。后续会根据总结不断更新。
目录
一、数据查看
查看行列: data.shape
查看数据详细信息: data.info(),可以查看是否有缺失值
查看数值型数据详细信息: data.describe(),可以查看到异常数据
获取前/后10行数据: data.head(10)、data.tail(10)
查看列标签: data.columns.tolist()
查看行索引: data.index
查看数据类型: data.dtypes
查看数据维度: data.ndim
查看除index外的值: data.values,会以二维ndarray的形式返回DataFrame的数据
查看数据分布(箱线图): seaborn.boxplot(data[列名])
查看数据分布(直方图): seaborn.distplot(data[列名].dropna())
二、数据转换
改变行索引: data.set_index(‘日期’,inplaec=True),将“日期”列设置为新的索引
修改列名排序: data.reindex(columns = new_columns_list)
字符串变时间: pd.to_datetime(data[‘日期’]),pd.read_csv(‘路径’,parse_date=[‘日期’])
取年、月、日、季度、星期:
data[‘月’] = data[‘日期’].dt.month,
data[‘日’] &