pandas 学习 第5篇:序列的处理(重复值、重索引、选择、截断、取样)

本文详细介绍了pandas中对序列的操作,包括删除和标记重复值、选择元素、检查特定值、截断序列、替换值、过滤、重索引、重置索引、重命名以及取样等。这些功能有助于数据清洗和预处理,提升数据分析效率。
摘要由CSDN通过智能技术生成

对序列进行数据数据,

一,删除序列中的重复值

当序列中存在重复值时,可以删除重复值,使序列中的值是唯一的:

Series.drop_duplicates(self, keep='first', inplace=False)

参数keep:有效值是first(保留第一个,删除后面出现的重复值),last(保留最后一个,删除前面出现的重复值),false(不保留,把重复的数据删除),默认值是保留第一个,

>>> s=pd.Series([1,1,2,3,4,4,5])
>>> s.drop_duplicates()
0    1
2    2
3    3
4    4
6    5
dtype: int64

二,标记序列中的重复值

把序列中出现重复值的位置用True来标识:

Series.duplicated(self, keep='first')

三,选择序列中的元素

从序列中选择前n行、后n行、任意连续位置的数据

Series.head(self, n=5)
Series.tail(self, n=5)
Series.take(self, indices, axis=0, is_copy=False, **kwargs)

参数注释:

  • indices:一维数组,用于表示axis的序号,如果axis=0,那么indices表示的是索引
  • axis:0表示索引,1表示列(columns),对于序列,axis的值只能是0.

比如,用take函数获取索引为1和5的序列元素:

>>> s=pd.Series([1,1,2,3,4,4,5])
>>> s.take([1,5])
1    1
5    4
dtype: int64

四,检查是否存在特定值

检查序列中是否存在特定的值,参数values是集合或列表,从序列中逐个元素比对是否存在values中的值,如果存在,那么该元素所在的位置上设置为True;如果不存在,那么该元素所在的位置上设置为False。

Series.isin(self, values)

该函数返回的是bool序列,例如:

>>> s = pd.Series(['lama', 'cow
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值