数据分析：Pandas之Series用法总结

最新推荐文章于 2024-06-16 18:20:37 发布

信橙则灵

最新推荐文章于 2024-06-16 18:20:37 发布

阅读量9.5k

点赞数 11

分类专栏： Python 常用模块文章标签： python 数据分析大数据数据挖掘

本文链接：https://blog.csdn.net/qq_42571592/article/details/117455231

版权

Python 常用模块专栏收录该内容

7 篇文章 6 订阅

订阅专栏

文章目录

- Series

Series

Series是线性的数据结构，带有标签的一维数组，轴标签统称为索引，数据和标签之间存在联系

一、导入Series

from pandas import Series
如果没有安装pandas的话，使用pip install pandas 进行导入

二、创建Series

1、使用列表或者numpy进行创建，默认索引为0到N-1的整数型索引

方法1:

a = Series([list], index=[list])

备注：
index：设置Series的index，index列表的元素个数跟数据list的元素个数要对应起来
示例：
没有index的话，默认index为0到N-1的整数型索引

obj = Series([1,2,3,4])
obj

在这里插入图片描述

自定义 index：

obj2 = Series([1,2,3,4],index=[‘a’,‘b’,‘c’,‘d’])
obj2

在这里插入图片描述

numpy创建跟list创建是相同的道理
在这里插入图片描述

2、使用字典创建(推荐使用)

创建方法为：

a = Series({Dict})

示例：

obj = Series({‘a’:1,‘b’:2, ‘c’:3, ‘d’:4})
obj

在这里插入图片描述

总结：比较推荐使用方法2，是因为方法2中没有对应index（index中的元素个数要跟数据个数相同）的限制，这样方法2就会比较自由

创建成功之后，下一步就是取值，Series可通过索引和切片的方法进行取值

三、Series的索引和切片

索引是为了获取具体的值，而切片则是为了获取一定范围内的值

1、显式索引与切片

显式索引

s.loc[‘索引名称’] 使用index中元素的名称作为索引值

示例：
取单个值：

obj = Series({‘a’:10,‘b’:12,‘c’:17})
obj.loc[‘a’] # 也可省略loc,即obj.loc[‘a’]

在这里插入图片描述
取多个值：

obj.loc[[‘a’,‘c’]] # 或 obj[[‘a’,‘c’]]

在这里插入图片描述
显式切片：

obj = Series({‘a’:10,‘b’:12,‘c’:17})
obj[‘a’:‘c’] # 或 obj[‘a’:‘c’]

在这里插入图片描述

2、隐式索引与切片

隐式索引

s.iloc[] 使用index中元素对应的下标作为索引值

示例：
取单个值：

obj = Series({‘a’:10,‘b’:12,‘c’:17})
obj.iloc[0] # 或 obj[0]

在这里插入图片描述
取多个值：

obj.iloc[[0, 1]] # 或 obj[[0, 1]]

在这里插入图片描述

隐式切片：

obj = Series({‘a’:10,‘b’:12,‘c’:17})
obj.iloc[0:2] # 或 obj[0:2]

在这里插入图片描述

学了这个显式和隐式的操作，可能大家有一些迷糊，那么进行一下总结：

显式索引就是通过索引值获取对应索引的结果（loc可省略）
隐式索引就是通过索引的下标获取对应索引的结果（.loc可省略）
切片和取多个值的格式要注意区分：

切片的格式为： [:] 即一个[], 中间的为冒号，相当于list中的切片
取多值的格式为：[[,]] 即两个[], 中间的分隔为逗号
注意切片操作中，显式索引和隐式索引的区别

显式索引是通过索引值获取索引的结果，两边索引值对应的值都能取到左闭右闭
隐式索引为通过索引的下标获取的结果，只能取到左边索引下标对应的值，右边索引下标对应的值取不到，同python中的list切片左闭右开
其实在Series中，有没有loc或者iloc好像没什么区别，但这并不说明loc和iloc就没有用，个人觉得它更有意义的是在DataFrame当中使用，而且，知道loc和iloc能阅读明白他人的代码，避免见到后不认识

四、Series的基本概念

1、通过head(),tail()快速查看Series对象的样式

1）先创建个测试数据

s = pd.Series(np.random.randint(1,10,size=(10,)))

2）获取数据的前五行数据

s.head() # 默认是前五行数据，可自定义行数，比如想要十行的话，s.head(10)

在这里插入图片描述
tail()是展示数据的后五行，也可自定义行数，例如：s.tail(10) 即展示数据的后10行

2、isnull(),notnull()函数检测缺失数据

缺失数据在Series中一般表示为： NaN（not a number）
1）创建测试数据

obj = Series([10,4,np.nan])

2）使用notnull()查看空值，为空则返回Flase，不为空则返回True

notnull = pd.notnull(obj)

3）根据isnull()返回的结果，取不为空的数据

obj[notnull]

在这里插入图片描述
isnull()跟notnull()的用法相同，只不过是，isnull()为空返回True，notnull()为空返回False

3、扩展

可以把Series看成一个定长的有序字典
可以通过shape，size，index，values等得到series的属性
在这里插入图片描述

四、Series的运算

1、适用于numpy的数组运算也适用于Series

这个需要仔细了解numpy的运算才行，这个就不扩展了，大家有兴趣的话，可上网上搜索下相关知识点

2、Series之间的运算

首先说下Series之间常用的运算：

add加 sub减 mul乘 div除

1）相同索引的数据进行运算，如果索引不对应，则补NaN
①：测试数据

A = pd.Series([2,4,6],index=[0,1,2])
B = pd.Series([1,3,5],index=[1,2,3])
display(A,B)

②：加运算

A.add(B)

在这里插入图片描述

在A和B数据中，index（索引）中的1、2是相同的，所以对应索引的数据进行运算，而其他索引对应不上的则没有相加的数值，所以值只能为NaN

扩展

出现NaN的原因是，两个Series中，索引相关的只对应不上，但我现在不想让这些对应不上的为NaN,那么有什么办法解决这个问题呢？

fill_value: 对空值赋值

A.add(B,fill_value=0)

fill_value的值为0时，则是，将索引不对应的补充为0，
如果自定义为，ill_value的值为1，则，将索引不对应的补充为1
在这里插入图片描述

信橙则灵

关注

11
点赞
踩
129

收藏

觉得还不错? 一键收藏
0
评论
数据分析：Pandas之Series用法总结

文章目录Series一、导入Series二、创建Series1、使用列表或者numpy进行创建，默认索引为0到N-1的整数型索引2、使用字典创建(推荐使用)三、Series的索引和切片1、显式索引与切片2、隐式索引与切片四、Series的基本概念1、通过head(),tail()快速查看Series对象的样式2、isnull(),notnull()函数检测缺失数据3、扩展四、Series的运算1、适用于numpy的数组运算也适用于Series2、Series之间的运算扩展SeriesSeries是线
复制链接

扫一扫