每日学习数据清理

数据清理

1.什么是数据清理,有什么常见的数据问题处理方式?

1.1目的:剔除原有的数据中“脏”的数据,提高数据的质量。

1.2 缺失值的处理方式:

删除m,填充m和插补。

2.缺失值的检测与处理?

1.缺失值的检测:

常见的函数:isnull(), notnull(),  isna() 和 notna() .

2.例子:

import pandas as pd
import numpy as np
na_df = pd.DataFrame({"A":[1,2,np.NaN,4],"B:[3,4,4,5],"c"[5,6,7,8],"D"[7,5,np.NaN]})
na_df.isna()

2.缺失值的处理

2.1 删除缺失值

dropna()方式:删除缺失值所在的一行或一列数据,并返回一个删除缺失后的新对象。

语法格式:DataFrame.dropna(axis=0,how='any' . thresh=None,subset = None,inplace=False)

axis:表示是否删除包含缺失值的行或列。 how :表示保留的行或列。

subset:表示删除指定列的缺失值。

2.2  填充缺失值

fillna()的方法  ,可以指定的数据填充,也可以使用缺失值前面或后面的数据填充。

DataFrame.fillna (value = None, method=None , axis=None, inplace = False, limit = None)

value: 表示填充的数据。  method:表示填充的方式,axis:表示是否填充包含缺失值的行或列。

limit:表示连续填充的最大数据。

2.3插补缺失值

interpolate()

DataFrame.interpolate(method='linear' , axis=0 ,limit =None ,inplace = False ,)

5.3 重复的检测与处理

·1.duplicataed()方法

DataFrame.duplicated(subset = None , keep = 'first')

subset:表示识别重复项的索引。

keep:表示采用哪种方式保留重复项。

2.drop_duplicates()方法

DataFrame.drop_duplicates(subset=None ,keep='first',inplace='False')

person_info.drop_duplicates()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

翰霖努力成为专家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值