用python消除异常值_Python数据分析库pandas ------ pandas 删除重复元素、用映射替换添加元素、重命名轴索引、离散化、异常值检测和过滤、排序...

本文介绍了如何使用Python的pandas库进行数据处理,包括删除重复元素、用映射替换元素、重命名轴索引、离散化、异常值检测和过滤,以及排序等操作。通过实例展示了duplicated()、drop_duplicates()、replace()、map()、rename()、cut()、qcut()等函数的用法,帮助读者理解数据清洗和预处理的关键步骤。
摘要由CSDN通过智能技术生成

数据转换

删除重复元素

DataFrame对象的duplicated()函数可用来检测重复的行,返回元素为布尔型的Series对象。 每个元素对

应一行,如果该行与其他行重复(也就是说该行不是第一次出现),则元素为True; 如果跟前面不重复,则元

素就为False。

返回元素为布尔值的Series对象用处很大,特别适用于过滤操作。通常,所有重复的行都需要从DataFrame

对象中删除。pandas库的drop_duplicates()函数实现了删除功能,该函数返回的是删除重复行后的DataFmme对

象。

1 dframe = pd.DataFrame({ 'color': ['white','white','red','red','white'],'value': [2,1,3,3,2]})2 print(dframe)3 print(dframe.duplicated())4 #返回元素为布尔值的Series对象用处很大,特别适用于过滤操作。

5 print( dframe[dframe.duplicated()])6 print(dframe.drop_duplicates())7 输出:8 color value9 0 white 2

10 1 white 1

11 2 red 3

12 3 red 3

13 4 white 2

14 0 False15 1False16 2False17 3True18 4True19 dtype: bool20 color value21 3 red 3

22 4 white 2

23 color value24 0 white 2

25 1 white 1

26 2 red 3

用映射替换元素

要用新元素替换不正确的元素,需要定义一组映射关系。在映射关系中,旧元素作为键,新元素作为值。

DataFrame对象中两种旧颜色被替换为正确的元素。还有一种常见情况,是把NaN替换为其他值,比如0。

这种情况下,仍然可以用replace()函数,它能优雅地完成该项操作。

1 frame8 =pd.DataFrame({2 'item': ['ball', 'mug', 'pen', 'pencil', 'ashtray'],3 'color': ['white', 'rosso', 'verde', 'black

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值