python csv 排序_python数据清洗

最新推荐文章于 2024-05-24 00:48:06 发布

weixin_39657444

最新推荐文章于 2024-05-24 00:48:06 发布

阅读量588

点赞数

python数据清洗

数据排序

import pandas as pa

df=pd.DataFrame.sort_values(by,ascending=True,inplace=False)

参数及说明

根据某些列进行排序

ascending

是否上升排序，默认为True，False为下降

inplace

直接修改原数据？默认False，不修改，返回处理后的值

#数据排序#导入数据框import pandas as pddf = pd.read_csv('d:/python/out/sort.csv',encoding='utf8')df

#按年龄升序，性别降序import pandas as pddf=pd.read_csv('d:/python/out/sort.csv',encoding='utf8')df_sort=df.sort_values(by=['年龄','性别'],ascending=[True,False])df_sort

重复数据处理

import pandas as pd

df=pd.DataFrame.duplicated(subset,keep='first')

参数说明

subset

根据哪些列进行重复值判断，默认为所有列

keep

保留哪个重复值，默认是first(首个)，可选last(最后)

#重复数据处理import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')df

#使用函数duplicated找到行重复数据位置import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')dindex=df.duplicated()dindex

#根据性别列找出重复数据位置import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')dindex=df.duplicated()dindex=df.duplicated(['性别'])dindex

#把返回值中True的行显示，即重复数据提取import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')df[df.duplicated()]

#直接删除重复值，默认根据所有的列进行删除import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')df_drop=df.drop_duplicates()df_drop

缺失数据处理

import pandas as pd

df=pd.DataFrame.fillna(value)

import pandas as pd

df=pd.Series.fillna(value)

参数说明

value

使用什么值来填充空值

#缺失数据处理import pandas as pddf=pd.read_csv('d:/python/out/fillna.csv',encoding='utf8')df

#使用均值填充缺失值import pandas as pddf=pd.read_csv('d:/python/out/fillna.csv',encoding='utf8')df['消费']=df.消费.fillna(df.消费.mean())#使用平均值补充df

#删除缺失值import pandas as pddf=pd.read_csv('d:/python/out/fillna.csv',encoding='utf8')df_drop=df.dropna()df_drop

空值处理

import pandas as pd

df=pd.Series.str.strip(value=)

参数说明

value

要剔除的值，默认为空格值

#空格数据处理import pandas as pddf=pd.read_csv('d:/python/out/strip.csv',encoding='utf8')df

#空格数据处理import pandas as pddf=pd.read_csv('d:/python/out/strip.csv',encoding='utf8')df_strip=df['name'].str.strip()df_strip

学习小结：

数据清洗是数据可视化基础，因此梳理常见清洗步骤。数据清洗的目的就是将原始数据转化为可以进行数据分析的形式，使数据保持准确性、一致性、有效性。

数据清洗最常见的方法有数据排序、重复数据处理、缺失数据处理、空格数据处理。

排序：是按一定顺序将数据排列，以便通过浏览数据发现一些明显的特征、规律或趋势。

重复数据查找：包括重复数据查找与重复数据删除；

重复数据删除是将数据中重复多余的数据进行删除处理，以保证数据的唯一性，也称为数据去重。

缺失数据处理：一般情况，缺失比例不高于30%，尽量别删除，而是选择数据补齐。数据补齐除了用0补充、平均值填充、众数(大多数)填充，还有向前填充(即用缺失数据值的前一非缺失值填充)、向后填充等方式。

weixin_39657444

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python csv 排序_python数据清洗

python数据清洗数据排序import pandas as padf=pd.DataFrame.sort_values(by,ascending=True,inplace=False)参数及说明by 根据某些列进行排序ascending是否上升排序，默认为True，False为下降inplace直接修改原数据？默认False，不修改，返回处理后的值#数据排序#导入数据框import p...
复制链接

扫一扫