【数据预处理】Python数据预处理常见操作

最新推荐文章于 2024-07-09 14:17:32 发布

紫雪凝香

最新推荐文章于 2024-07-09 14:17:32 发布

阅读量4.4k

点赞数 10

分类专栏： Python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/WANG_hl/article/details/105869798

版权

本文详述了Python数据预处理的关键步骤，包括数据查看、转换、清洗、获取、合并和其他操作，如异常值处理、重复值检测、缺失值填充等，旨在帮助读者掌握高效的数据预处理技巧。

摘要由CSDN通过智能技术生成

文章总结了拿到原始数据后，用Python做数据预处理的常见操作。后续会根据总结不断更新。

一、数据查看

查看行列： data.shape
查看数据详细信息： data.info()，可以查看是否有缺失值
查看数值型数据详细信息： data.describe()，可以查看到异常数据
获取前/后10行数据： data.head(10)、data.tail(10)
查看列标签： data.columns.tolist()
查看行索引： data.index
查看数据类型： data.dtypes
查看数据维度： data.ndim
查看除index外的值： data.values，会以二维ndarray的形式返回DataFrame的数据
查看数据分布（箱线图）： seaborn.boxplot(data[列名])
查看数据分布（直方图）： seaborn.distplot(data[列名].dropna())

二、数据转换

改变行索引： data.set_index(‘日期’,inplaec=True)，将“日期”列设置为新的索引
修改列名排序： data.reindex(columns = new_columns_list)
字符串变时间： pd.to_datetime(data[‘日期’])，pd.read_csv(‘路径’,parse_date=[‘日期’])
取年、月、日、季度、星期：
data[‘月’] = data[‘日期’].dt.month，
data[‘日’] &