python series去重_pandas中的Series的其他功能

Series选择内部元素

若想获取Series对象内部的元素,把它作为普通的NumPy数组,指定键即可。

6a63f6246b600c338ca102c4c987d30bd8f9a136.png?token=a76f02f2d2ce51478a198aeaf774c0f8&s=E9C233661EE49D740CD9FC070300E0C2

或者,指定位于索引位置处的标签:

9d82d158ccbf6c81ae2731b46ef5333132fa40ad.png?token=ed5a7336b96dcef1e975c01475b758cf&s=2BC21366EEA2F7744E75940F0300E0C1

跟从NumPy数组选择多个元素的方法相同,可像下面这样选取多项:

50da81cb39dbb6fdf4d332b4d8ef291c952b37ec.png?token=15c07c3b9d019c800d43058de59830f2&s=6BC21366EEA2F7744ED5D00F0300E0C1

这种情况甚至可以使用元素对应的标签,只不过要把标签放到数组中去:

0df431adcbef760900c77a70ff1621c87ed99e65.png?token=5c93f2e5da3219b2ba5e5032d2a6c23c&s=6BC21366EEA2F7744ED5D00F0300A0C1

为元素赋值

既然你已经理解单个元素的选取方法,赋值方法也就不言自明。可以用索引或标签选取元素后进行赋值。

42a98226cffc1e17fcc18f45995b7407728de99c.png?token=644413b2538d0daaa510f2f9286f04b4&s=2BC21366EEA2F7740C75940F0300E0C1

用NumPy数组或其他Series对象定义新Series对象

你可以用NumPy数组或现有的Series对象定义新的Series对象。

0b7b02087bf40ad194642bba84e793dba8ecce3c.png?token=c8c805484d733911044c040bb5e296a1&s=2BC21366FAE68F6C0CF5D40F0300A0C1

然而,这样做时不要忘记新Series对象中的元素不是原NumPy数组或Series对象元素的副本,而是对它们的引用。也就是说,这些对象是动态插入到新Series对象中。如改变原有对象元素的值,新Series对象中这些元素也会发生改变。

3c6d55fbb2fb431676a787fff26fc4270bf7d3cf.png?token=5b423030d887ebde25a898f300a53467&s=2BC21366EEA2F7744E75940F0300E0C1

上述例子,改动arr数组第三个元素的值,同时也会修改Series对象s3中相应的元素。

筛选元素

pandas库的开发是以NumPy库为基础的,因此就数据结构而言,NumPy数组的多种操作方法得以扩展到Series对象中,其中就有根据条件筛选数据结构中的元素这一方法。

如要获取Series对象中所有大于8的元素,可以使用如下代码:

43a7d933c895d143611c1dd0a23b00065baf072f.png?token=45e4d5972475dabeda927872470c9e24&s=6BC21366EEA2F7744ED5500F0300A0C1

Series对象运算和数学函数

适用于NumPy数组的运算符(+、-、*、/)或其他数学函数,也适用于Series对象。

至于运算符,直接用来编写算术表达式即可。

0823dd54564e9258950fbe2e4d49535ccdbf4e02.png?token=887c3b65fcf501f8a771da7232ebc5be&s=2BC21366EEA2F7744E75940F0300A0C1

然而,至于NumPy库的数学函数,必须指定它们的出处np,并把Series实例作为参数传入。

bba1cd11728b4710b702ad66110541f9fd0323be.png?token=4b93bdb320021a0a02d7ef3a9f1ac40c&s=69C23367EEA2F7740C79D40F0300E0C1

Series对象的组成元素

Series对象往往包含重复的元素,你很可能想知道里面都包含哪些元素,统计元素重复出现的次数或判断一个元素是否在Series中。

我们来声明一个包含多个重复元素的Series对象。

30adcbef76094b36b34c2fa07007fedd8f109df4.png?token=e99c90e85958f87de6a214ada6b72693&s=2BC21366CFA497724E75940F0300E0C1

要弄清楚Series对象包含多少个不同的元素,可使用unique( )函数。其返回结果为一个数组,包含Series去重后的元素,但顺序看上去很随意。

d4628535e5dde7111065c2c974244c1f9c1661ae.png?token=fa0194ddb469403833aaccf3ca687f3d

跟unique( )函数相似的另外一个函数是value_counts( )函数,它不仅返回各个不同的元素,还计算每个元素在Series中的出现次数。

c2fdfc039245d688aca5859f7609ff1ad31b24b1.png?token=9fae6f8f329654c39192698d9d821aa3&s=6BC213661AE08F7C4E75940F0300E0C1

最后,isin( )函数用来判断所属关系,也就是判断给定的一列元素是否包含在数据结构之中。isin( )函数返回布尔值,可用于筛选Series或DataFrame列中的数据。

eaf81a4c510fd9f9b4cff7eff7e6562e2a34a4a8.png?token=5cf6e80970ae44b55f47de32985b2841&s=69C213675AE4A77E4E59D40F0300E0C1

NaN

在前面的一个例子中,我们求负数的对数,得到的返回结果为NaN(Not a Number,非数值)。数据结构中若字段为空或者不符合数字的定义时,用这个特定的值来表示。

一般来讲,NaN值表示数据有问题,必须对其进行处理,尤其是在数据分析时。从某些数据源抽取数据时遇到了问题,甚至是数据源缺失数据,往往就会产生这类数据。进一步来讲,计算负数的对数,执行计算或函数时抛出异常等特定情况,也可能会产生这类数据,接下来我们会讲解NaN值的几种不同处理方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值