数据处理之重复值，缺失值，空格值的处理

最新推荐文章于 2022-10-03 09:11:19 发布

Jump

最新推荐文章于 2022-10-03 09:11:19 发布

阅读量1.6k

点赞数

分类专栏：数据处理文章标签：重复值处理缺失值处理

本文链接：https://blog.csdn.net/weixin_42612434/article/details/82737168

版权

数据处理专栏收录该内容

7 篇文章 1 订阅

订阅专栏

重复值处理

去除重复值在python中主要是用drop_duplicates()函数，接下来做个小示范( 这边是我的文件路径，如果你想实现此功能需要输入自己的文件路径)：

# -*- coding: utf-8 -*-
import pandas as pd 
df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.3/data.csv', encoding = 'UTF-8')
newdf = df.drop_duplicates()

调用一下就完事了，是不是很简单。

缺失值处理

缺失值主要是数据样本某些信息被遗漏和没遗漏但是这些数据无法获取，比如未成年人再被问到收入的情况下。
缺失值的处理一般分以下三步，应该根据具体业务来驱动选取何种处理方法：

数据补齐：一般用整体平均值代入补齐
删除数据：把含有缺失值的行在分析前删除
不处理：把缺失值就原样放着或者当0处理

缺失值处理的主要函数是dropna()函数，具体用法如下

df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.4/data.csv', encoding = 'UTF-8');
newdf = df.dropna()

空格值处理

有时候我们会发现字段间的空格不一致，为了规整数据可以使用strip()函数来删除字段两边的空格，str()</font是Dataframe数据结构里的str属性。具体实现如下：

df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.5/data.csv')
df = df['name'].str.strip();

Jump

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据处理之重复值，缺失值，空格值的处理

重复值处理去除重复值在python中主要是用drop_duplicates函数，接下来做个小示范( 这边是我的文件路径，如果你想实现此功能需要输入自己的文件路径)：# -*- coding: utf-8 -*-import pandas as pd df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.3/data.csv', encoding...
复制链接

扫一扫