python csv 排序_python数据清洗

4e99ed601bd8b76e208331863985baaf.png

python数据清洗

  • 数据排序

import pandas as pa

df=pd.DataFrame.sort_values(by,ascending=True,inplace=False)

参数及说明

by

根据某些列进行排序

ascending

是否上升排序,默认为True,False为下降

inplace

直接修改原数据?默认False,不修改,返回处理后的值

#数据排序#导入数据框import pandas as pddf = pd.read_csv('d:/python/out/sort.csv',encoding='utf8')df
#按年龄升序,性别降序import pandas as pddf=pd.read_csv('d:/python/out/sort.csv',encoding='utf8')df_sort=df.sort_values(by=['年龄','性别'],ascending=[True,False])df_sort
  • 重复数据处理

import pandas as pd

df=pd.DataFrame.duplicated(subset,keep='first')

参数说明

subset

根据哪些列进行重复值判断,默认为所有列

keep

保留哪个重复值,默认是first(首个),可选last(最后)

#重复数据处理import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')df
#使用函数duplicated找到行重复数据位置import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')dindex=df.duplicated()dindex
#根据性别列找出重复数据位置import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')dindex=df.duplicated()dindex=df.duplicated(['性别'])dindex
#把返回值中True的行显示,即重复数据提取import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')df[df.duplicated()]
#直接删除重复值,默认根据所有的列进行删除import pandas as pddf=pd.read_csv('d:/python/out/duplicated.csv',encoding='utf8')df_drop=df.drop_duplicates()df_drop
  • 缺失数据处理

import pandas as pd

df=pd.DataFrame.fillna(value)

import pandas as pd

df=pd.Series.fillna(value)

参数说明

value

使用什么值来填充空值

#缺失数据处理import pandas as pddf=pd.read_csv('d:/python/out/fillna.csv',encoding='utf8')df
#使用均值填充缺失值import pandas as pddf=pd.read_csv('d:/python/out/fillna.csv',encoding='utf8')df['消费']=df.消费.fillna(df.消费.mean())#使用平均值补充df
#删除缺失值import pandas as pddf=pd.read_csv('d:/python/out/fillna.csv',encoding='utf8')df_drop=df.dropna()df_drop
  • 空值处理

import pandas as pd

df=pd.Series.str.strip(value=)

参数说明

value

要剔除的值,默认为空格值

#空格数据处理import pandas as pddf=pd.read_csv('d:/python/out/strip.csv',encoding='utf8')df
#空格数据处理import pandas as pddf=pd.read_csv('d:/python/out/strip.csv',encoding='utf8')df_strip=df['name'].str.strip()df_strip

学习小结:

数据清洗是数据可视化基础,因此梳理常见清洗步骤。数据清洗的目的就是将原始数据转化为可以进行数据分析的形式,使数据保持准确性、一致性、有效性。

数据清洗最常见的方法有数据排序、重复数据处理、缺失数据处理、空格数据处理。

排序:是按一定顺序将数据排列,以便通过浏览数据发现一些明显的特征、规律或趋势。

重复数据查找:包括重复数据查找与重复数据删除;

重复数据删除是将数据中重复多余的数据进行删除处理,以保证数据的唯一性,也称为数据去重。

缺失数据处理:一般情况,缺失比例不高于30%,尽量别删除,而是选择数据补齐。数据补齐除了用0补充、平均值填充、众数(大多数)填充,还有向前填充(即用缺失数据值的前一非缺失值填充)、向后填充等方式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值