重复值处理
去除重复值在python中主要是用drop_duplicates()函数,接下来做个小示范( 这边是我的文件路径,如果你想实现此功能需要输入自己的文件路径):
# -*- coding: utf-8 -*-
import pandas as pd
df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.3/data.csv', encoding = 'UTF-8')
newdf = df.drop_duplicates()
调用一下就完事了,是不是很简单。
缺失值处理
缺失值主要是数据样本某些信息被遗漏和没遗漏但是这些数据无法获取,比如未成年人再被问到收入的情况下。
缺失值的处理一般分以下三步,应该根据具体业务来驱动选取何种处理方法:
- 数据补齐:一般用整体平均值代入补齐
- 删除数据:把含有缺失值的行在分析前删除
- 不处理:把缺失值就原样放着或者当0处理
缺失值处理的主要函数是dropna()函数,具体用法如下
df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.4/data.csv', encoding = 'UTF-8');
newdf = df.dropna()
空格值处理
有时候我们会发现字段间的空格不一致,为了规整数据可以使用strip()函数来删除字段两边的空格,str()</font是Dataframe数据结构里的str属性。具体实现如下:
df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.5/data.csv')
df = df['name'].str.strip();