python数据预处理 重复行统计_Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记...

1. 数据清洗

1.1 空值和缺失值的处理

​空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。

​一般空值使用None表示,缺失值使用NaN表示

1.1.1 使用isnull()和notnull()函数

​可以判断数据集中是否存在空值和缺失值

1.1.1.1 isnull()语法格式:

pandas . isnull(obj)

1.1.1.2 notnull()语法格式:

pandas . notnull(obj)

​notnull()与 isnull()函数的功能是一样的,都可以判断数据中是否存在空值或缺失值,不同处在于,前者发现数据中有空值或缺失值时返回False,后者返回的是True.

1.1.2 使用 dropna()和fillna()方法

​对缺失值进行删除和填充。

1.1.2.1 dropna()删除含有空值或缺失值的行或列

​axis:确定过滤行或列

​how:确定过滤的标准,默认是‘any’

​inplase::False=不修改对象本身

1.1.2.2 fillna()方法可以实现填充空值或者缺失值

​value:用于填充的数值,

​method:表示填充方式,默认值为None,‘ffill’前填充,‘bfill’后填充

​limit:可以连续填充的最大数量,默认None.

1.2 重复值的处理

​当数据中出现了重复值,在大多数情况下需要进行删除。

1.2.1 使用duplicated()和drop_duplicates()方法

​duplicated()方法用于标记是否有重复值。

​drop_duplicates()方法用于删除重复值。

​它们的判断标准是一样的,即只要两条数中所有条目的值完全相等,就判断为重复值。

1.2.2 duplicated()方法的语法格式

​subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签。

​keep:删除重复项并保留第一次出现的项取值可以为 first、last或 False

​duplicated()方法用于标记 Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False,所以该方法返回一个由布尔值组成的Series对象,它的行索引保持不变,数据则变为标记的布尔值

强调注意:

​(1)只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。

​(2)duplicated()方法支持从前向后( first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。

1.2.2.1 drop_duplicates()方法的语法格式

2上述方法中, inplace参数接收一个布尔类型的值,表示是

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值