数据处理之数据转换

米法·

于 2022-04-07 13:38:10 发布

阅读量1.7k

点赞数

分类专栏： Python 文章标签： python 数据清洗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TSzero/article/details/124000644

版权

Python 专栏收录该内容

35 篇文章 6 订阅

订阅专栏

文章目录

一、删除重复值
二、替换
三、离散化和分箱

一、删除重复值

对于下面的dataframe，有重复的行：

df = pd.DataFrame()
df['a'] = [1, 2, 2, 3]
df['b'] = [2, 3, 3, 4]
df

输出结果：

DataFrame的duplicated方法返回的是一个布尔值Series，这个Series反映的是每一行是否存在重复（与之前出现过的行相同）情况：

df.duplicated()

输出结果：

0    False
1    False
2     True
3    False
dtype: bool

drop_duplicates返回的则是DataFrame，内容是duplicated返回数组中为False的部分：

df.drop_duplicates()

输出结果：

注意到，此时的索引未改变，而且保留第一个观测到的值，而传入参数keep='last’将会返回最后一个：

df.drop_duplicates(keep='last')

输出结果：

也可以指定数据的任何子集来检测是否有重复：

df.drop_duplicates(['a'], keep='last') # 指定a列是否有重复值

输出结果：

二、替换

pandas库中的replace提供了简单灵活的替换方法：

a = pd.Series([0, 1, -999, 10, -1000])
a

输出结果：

0       0
1       1
2    -999
3      10
4   -1000
dtype: int64

对于a，其中的-999为缺失值，所以可替换为NA：

a.replace(-999, np.nan) # 将-999替换为NA

输出结果：

0       0.0
1       1.0
2       NaN
3      10.0
4   -1000.0
dtype: float64

也可以替换多个值，也可以将多个值替换为不同的值：

a.replace([-999, -1000], np.nan) # 将-999和-1000都替换为空值

输出结果：

0     0.0
1     1.0
2     NaN
3    10.0
4     NaN
dtype: float64

a.replace([-999, -1000], [0, 1]) # 将-999替换为0，将-1000替换为1

输出结果：

0     0
1     1
2     0
3    10
4     1
dtype: int64

三、离散化和分箱

pandas之分箱操作

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据处理之数据转换

数据处理之数据转换
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。