用python消除异常值_Python数据分析库pandas ------ pandas 删除重复元素、用映射替换添加元素、重命名轴索引、离散化、异常值检测和过滤、排序...

最新推荐文章于 2024-07-06 02:05:46 发布

weixin_39693950

最新推荐文章于 2024-07-06 02:05:46 发布

阅读量488

点赞数

文章标签：用python消除异常值

本文介绍了如何使用Python的pandas库进行数据处理，包括删除重复元素、用映射替换元素、重命名轴索引、离散化、异常值检测和过滤，以及排序等操作。通过实例展示了duplicated()、drop_duplicates()、replace()、map()、rename()、cut()、qcut()等函数的用法，帮助读者理解数据清洗和预处理的关键步骤。

摘要由CSDN通过智能技术生成

数据转换

删除重复元素

DataFrame对象的duplicated()函数可用来检测重复的行，返回元素为布尔型的Series对象。每个元素对

应一行，如果该行与其他行重复（也就是说该行不是第一次出现），则元素为True; 如果跟前面不重复，则元

素就为False。

返回元素为布尔值的Series对象用处很大，特别适用于过滤操作。通常，所有重复的行都需要从DataFrame

对象中删除。pandas库的drop_duplicates()函数实现了删除功能，该函数返回的是删除重复行后的DataFmme对

象。

1 dframe = pd.DataFrame({ 'color': ['white','white','red','red','white'],'value': [2,1,3,3,2]})2 print(dframe)3 print(dframe.duplicated())4 #返回元素为布尔值的Series对象用处很大，特别适用于过滤操作。

5 print( dframe[dframe.duplicated()])6 print(dframe.drop_duplicates())7 输出：8 color value9 0 white 2

10 1 white 1

11 2 red 3

12 3 red 3

13 4 white 2

14 0 False15 1False16 2False17 3True18 4True19 dtype: bool20 color value21 3 red 3

22 4 white 2

23 color value24 0 white 2

25 1 white 1

26 2 red 3

用映射替换元素

要用新元素替换不正确的元素，需要定义一组映射关系。在映射关系中，旧元素作为键，新元素作为值。

DataFrame对象中两种旧颜色被替换为正确的元素。还有一种常见情况，是把NaN替换为其他值，比如0。

这种情况下，仍然可以用replace()函数，它能优雅地完成该项操作。

1 frame8 =pd.DataFrame({2 'item': ['ball', 'mug', 'pen', 'pencil', 'ashtray'],3 'color': ['white', 'rosso', 'verde', 'black

最低0.47元/天解锁文章

weixin_39693950

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。