数据处理之重复值,缺失值,空格值的处理

重复值处理

去除重复值在python中主要是用drop_duplicates()函数,接下来做个小示范( 这边是我的文件路径,如果你想实现此功能需要输入自己的文件路径):

# -*- coding: utf-8 -*-
import pandas as pd 
df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.3/data.csv', encoding = 'UTF-8')
newdf = df.drop_duplicates()

调用一下就完事了,是不是很简单。

缺失值处理

缺失值主要是数据样本某些信息被遗漏和没遗漏但是这些数据无法获取,比如未成年人再被问到收入的情况下。
缺失值的处理一般分以下三步,应该根据具体业务来驱动选取何种处理方法:

  • 数据补齐:一般用整体平均值代入补齐
  • 删除数据:把含有缺失值的行在分析前删除
  • 不处理:把缺失值就原样放着或者当0处理

缺失值处理的主要函数是dropna()函数,具体用法如下

df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.4/data.csv', encoding = 'UTF-8');
newdf = df.dropna()

空格值处理

有时候我们会发现字段间的空格不一致,为了规整数据可以使用strip()函数来删除字段两边的空格,str()</font是Dataframe数据结构里的str属性。具体实现如下:

df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.5/data.csv')
df = df['name'].str.strip();
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值