(5) 深入探索Python-Pandas库的核心数据结构:Series详解

前言

大家好!我是架构筑梦的Cherry,本期跟大家分享的知识是 pandas 数据结构——DataFrame。

作者的【 Python智能工坊】专栏及【少儿编程Python:趣味编程,探索未来】正在火热更新中🔥🔥🔥,如果本文对您有帮助,欢迎大家点赞 + 评论 + 收藏 !

1. Series 简介

pandas数据结构中的Series是一个一维数组对象,能够保存任何数据类型(整数、字符串、浮点数、Python对象等),并有一个与之关联的标签序列,这些标签被称为“索引”(index)。索引与数据是一一对应的,通过索引可以快速获取、更新或删除数据。Series在pandas数据处理中起着至关重要的作用,是构建更复杂数据结构(如DataFrame)的基础。

以下是关于pandas Series的详细解释:

  • 定义:Series类似于一维数组或列表,但它有一个显式的索引,用于标记数据。
  • 组成:Series由两部分组成——值(values)索引(index)

在金融数据分析中,pandas的Series数据结构扮演着重要角色。它可以用来存储股价、交易量、市盈率等连续或离散的数据,并通过索引轻松访问和操作这些数据。Series支持多种数据类型,允许用户根据实际需求灵活使用。

2. Series的特点

  • 一维数组:Series是一维的,意味着它只有一个轴(或维度),类似于Python中的列表。
  • 索引:每个Series都有一个索引,用于对数据进行标记。索引可以是整数、字符串、日期等类型。如果不指定索引,pandas将默认创建一个从0开始的整数索引。
  • 数据类型:Series可以容纳不同数据类型的元素,包括整数、浮点数、字符串、Python对象等。
  • 大小不变性:Series的大小在创建后是不变的,但可以通过某些操作(如append或delete)来改变。
  • 操作:Series支持各种操作,如数学运算、统计分析、字符串处理等。
  • 缺失数据:Series可以包含缺失数据,pandas使用NaN(Not a Number)来表示缺失或无值。

3. Series的创建

Series可以通过多种方式进行创建,包括但不限于:

  • 使用列表或数组:可以传递一个列表或数组作为数据源来创建Series。
  • 指定索引:可以为每个元素指定索引标签。
  • 使用字典:字典的键成为索引,值成为数据。
  • 使用numpy的ndarray:可以直接使用numpy数组来创建Series。

pd.Series()是创建Series的常用方法,格式如下:

pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

参数说明:

  • data:这是必须的参数,可以是列表、数组、字典等,用于存储Series中的数据。
  • index:可选参数,用于指定索引标签。如果不提供,则默认使用从0开始的整数索引。
  • dtype:可选参数,用于指定数据类型。如果未指定,pandas会根据数据内容自动推断数据类型。
  • name:可选参数,用于给Series命名。命名后的Series在打印时会显示名称,方便识别。
  • copy:可选参数,默认为False。如果为True,则会将数据复制到新的Series中,原始数据不受影响。
  • fastpath:是否启用快速路径。默认为 False。启用快速路径可能会在某些情况下提高性能。

下面是几个创建 Series 的实例:

3.1 使用列表创建Series

import pandas as pd
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64

输出结果说明:
第一列:0-4 为 索引值,默认从 0 开始;
第二列:1-5 为 数据;
dtype: int64 为该 Series 变量的数据类型;

3.2 使用字典创建Series

import pandas as pd
data = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s2 = pd.Series(data)
print(s2)

输出:

a    1
b    2
c    3
d    4
e    5
dtype: int64

3.3 使用列表和自定义索引创建Series

import pandas as pd
labels = ['one', 'two', 'three', 'four', 'five']
s3 = pd.Series([1, 2, 3, 4, 5], index=labels)
print(s3)

输出:

one      1
two      2
three    3
four     4
five     5
dtype: int64

3.4 指定数据类型和名称

import pandas as pd
s4 = pd.Series([1.1, 2.2, 3.3, 4.4, 5.5], dtype=float, name='numbers')
print(s4)

输出:

0    1.1
1    2.2
2    3.3
3    4.4
4    5.5
Name: numbers, dtype: float64

注意:
当使用字典创建Series时,如果字典的键不是有序的(如Python 3.7之前的字典),则Series的索引顺序可能与字典的键插入顺序不同。但在Python 3.7及以后的版本中,字典保持插入顺序。
索引在Series中非常重要,它不仅用于标记数据,还用于数据的对齐和选择。因此,在创建Series时,应仔细考虑索引的设置。
如果在创建Series时提供了与数据长度不一致的索引,pandas会自动对缺失的数据使用NaN(Not a Number)进行填充。
默认情况下,如果不指定索引,pandas会为Series创建一个从0开始的整数索引。这种索引被称为“基于位置的索引”或“隐式索引”。在大多数情况下,这种索引对于数据分析和处理已经足够。然而,在需要明确标记或选择数据的情况下,可以手动指定索引标签。

4. Series的索引/切片

4.1 下标索引:基于整数位置的索引

import pandas as pd
 
# 创建一个默认的Series
s = pd.Series([10, 20, 30, 40, 50])
 
# 使用基于位置的索引访问数据
print(s[0])  
print(s[2:4])  

输出:

10
2    30
3    40
dtype: int64

4.2 基于标签的索引

在pandas的Series中,基于标签的索引是一种强大的功能,它允许你通过Series的索引标签来直接访问或操作数据。这种索引方式特别适用于具有明确标签(如股票名称、日期等)的数据集。

当你创建一个Series并为其指定了索引时,你就可以使用这些索引标签来访问、修改或选择数据。

下面是基于标签索引的示例:
假设我们有一个Series,它包含了几个股票在特定日期的收盘价,并使用了股票代码作为索引标签。

import pandas as pd

# 创建一个带有股票代码作为索引的Series
stocks = pd.Series([100.5, 201.2, 150.8], index=['AAPL', 'MSFT', 'GOOGL'])

# 使用基于标签的索引访问数据
print(stocks['AAPL'])  # 输出: 100.5

# 使用多个标签选择数据(返回一个Series)
subset = stocks[['AAPL', 'GOOGL']]
print(subset)
# 输出:
# AAPL    100.5
# GOOGL   150.8
# dtype: float64

# 修改基于标签的索引的数据
stocks['AAPL'] = 101.0
print(stocks)
# 输出:
# AAPL    101.0
# MSFT    201.2
# GOOGL   150.8
# dtype: float64

在上面的示例中,我们首先创建了一个Series对象stocks,其中包含了三个股票代码(‘AAPL’, ‘MSFT’, ‘GOOGL’)和它们对应的收盘价。然后,我们使用这些股票代码作为标签来访问和修改数据。

4.3 切片

与Python中的列表或NumPy数组类似,可以使用切片来访问Series的子集。
无论是基于位置的索引还是基于标签的索引,你都可以使用切片来访问数据的子集。不过,当使用基于标签的索引进行切片时,你需要确保切片的标签在Series的索引中是存在的,并且它们是连续的。

# 使用自定义索引的Series
s = pd.Series([10, 20, 30, 40, 50], index=['A', 'B', 'C', 'D', 'E'])
 
# 使用基于标签的切片(只有当标签连续时才有效)
print(s['A':'C'])  # 输出: A    10
                   #      B    20
                   #      C    30
                   # dtype: int64
 
# 使用基于位置的切片(始终有效)
print(s[1:4])  # 输出: B    20
               #      C    30
               #      D    40
               # dtype: int64

注意:如果基于标签的切片中的标签不连续或不存在于索引中,那么你会得到一个KeyError。如果你想要选择不连续标签的数据,你需要使用索引的loc属性,并传入一个标签列表。

4.4 使用.loc[]和.iloc[]进行索引

对于更复杂的数据选择或操作,你可以使用.loc[]方法。虽然对于单个标签的访问,直接使用标签和.loc[]是等效的,但.loc[]在处理多个标签或条件选择时更加灵活。

  • .loc[]:基于标签的索引。
  • .iloc[]:基于位置的索引(总是整数位置)。
# 使用.loc[]基于标签索引
print(s.loc['A':'C'])
 
# 使用.iloc[]基于位置索引
print(s.iloc[1:4])

输出:

A    10
B    20
C    30
dtype: int64
B    20
C    30
D    40
dtype: int64

.loc[]和.iloc[]提供了更明确和灵活的索引方式,特别是在处理复杂的数据集时。

5. 基本运算

在pandas库中,Series对象支持多种基本运算,这些运算包括算术运算、比较运算和逻辑运算。
以下是关于Series基本运算的详细解释:

5.1 算术运算

算术运算包括加、减、乘、除等基本操作。
在pandas中,Series对象之间可以直接进行这些运算,且pandas会自动处理索引对齐。

5.1.1 加法(+)

两个Series相加时,相同索引位置的元素会相加。如果两个Series长度相同且索引一致,则直接对应相加;如果长度不同或索引不完全对应,结果的索引将是两个Series索引的并集,不存在的索引将填充为NaN(表示非数字)。

示例:

import pandas as pd
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['a', 'b', 'c'])
result_add = s1 + s2
print(result_add)  # 输出:a    5, b    7, c    9, dtype: int64
  • 减法(-)乘法(*)除法(/):这些运算与加法类似,都是基于索引进行对应元素的运算。

5.2 比较运算

比较运算用于比较两个Series的元素值,包括等于(==)、不等于(!=)、大于(>)、小于(<)、大于等于(>=)和小于等于(<=)等。这些运算会返回一个布尔类型的Series,表示每个元素比较的结果。

示例:

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([2, 2, 2])
result_eq = s1 == s2  # 比较是否相等
print(result_eq)  # 输出:0    False, 1     True, 2    False, dtype: bool

5.3 逻辑运算

逻辑运算在pandas中主要用于合并布尔Series。但请注意,直接对两个Series对象进行逻辑运算(如and、or)在pandas中并不直接支持,因为这会引发错误。相反,你应该使用按元素比较产生的布尔Series,并使用&(逻辑与)和|(逻辑或)等操作符进行逻辑运算。

示例:

s1_gt_1 = s1 > 1  # s1中大于1的元素
s2_lt_2 = s2 < 2  # s2中小于2的元素
result_logical = s1_gt_1 & s2_lt_2  # 逻辑与运算
print(result_logical)  # 输出:0    False, 1    False, 2    False, dtype: bool

在这个例子中,由于s1s2中没有同时满足s1 > 1s2 < 2的元素,所以结果全为False。

pandas的Series对象支持丰富的运算操作,包括算术运算、比较运算和逻辑运算。这些运算都是基于索引进行的,能够方便地处理和分析数据。在实际应用中,可以根据需要选择合适的运算操作来处理和分析数据。

6. 基本属性和方法

  • 属性:包括values(数据值)、index(索引)、dtype(数据类型)、name(名称)等。
  • 方法:提供了许多用于数据操作和分析的方法,如mean()(计算平均值)、std()(计算标准差)、unique()(返回唯一值)等。

下面是基本属性和方法的示例:

6.1 基本属性示例

首先,创建一个Series对象

import pandas as pd

s = pd.Series([100, 150, 110, 130, 150, 150], 
              index=['语文', '数学', '英语', 'Python', 'Pandas', 'NumPy'],
              name="考试成绩")

下面,是访问的基本属性:

  • shape:返回Series的形状(通常是一个元组,对于Series来说,通常只有一个元素表示长度)
print(s.shape)  # 输出: (6,)
  • size:返回Series的长度
print(s.size)  # 输出: 6
  • index:返回Series的索引
print(s.index)  # 输出: Index(['语文', '数学', '英语', 'Python', 'Pandas', 'NumPy'], dtype='object')
  • values:返回Series的值
print(s.values)  # 输出: array([100, 150, 110, 130, 150, 150], dtype=int64)
  • name:返回Series的名称
print(s.name)  # 输出: 考试成绩

6.2 基本方法示例

  • head():查看前几条数据,默认5条
print(s.head())  # 输出前5条数据
  • tail():查看后几条数据,默认5条
print(s.tail())  # 输出后5条数据
  • describe:返回描述统计信息
print(s.describe()) 

输出:

count      6.000000
mean     131.666667
std       22.286020
min      100.000000
25%      115.000000
50%      140.000000
75%      150.000000
max      150.000000
Name: 考试成绩, dtype: float64
  • idxmax:获取最大值和最小值的索引
print(s.idxmax())   # 输出:数学
print(s.idxmin())   # 输出:语文
  • dtype:数据类型
print(s.dtype)    # 输出:int64
  • sum:求和
print(s.sum())  # 输出:790
  • mean:平均值
print(s.mean())   # 输出:131.66666666666666
  • max:最大值
print(s.max())  # 输出:150
  • min:最小值
print(s.min())   # 输出:100
  • std:标准差
print(s.std()) # 输出:22.28601953392904
  • astype:将 Series 转换为另一种数据类型
s = s.astype('float64')  # 将 Series 中的所有元素转换为 float64 类型

6.3 检测缺失数据的方法

虽然在这个示例中没有缺失数据,但我们可以演示如何使用isnull()notnull()方法。

s_with_missing = pd.Series([100, 150, None, 130, 150, 150], 
                           index=['语文', '数学', '英语', 'Python', 'Pandas', 'NumPy'],
                           name="考试成绩")

print(s_with_missing.isnull())  # 输出布尔序列,表示哪些位置是缺失值

以上展示了pandas.Series的一些基本属性和方法。这些属性和方法提供了灵活且强大的工具来操作和分析一维数据。通过结合索引、值和属性,我们可以有效地处理数据并执行各种操作。

7. 金融方面的几个series示例

在金融领域,Series 可以用于存储和处理各种金融数据,如股票价格、收益率、交易量等。以下是几个与金融相关的 Series 示例:

7.1 示例一:股票价格数据

import pandas as pd

# 假设有以下股票数据
data = {'日期': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
        '收盘价': [100.0, 101.5, 102.1, 100.8, 103.0]}

# 将数据转换为pandas的DataFrame,然后选取'收盘价'列转换为Series
df = pd.DataFrame(data)
stock_prices = df.set_index('日期')['收盘价']

# 显示Series
print(stock_prices)

输出:

日期
2023-01-01    100.0
2023-01-02    101.5
2023-01-03    102.1
2023-01-04    100.8
2023-01-05    103.0
Name: 收盘价, dtype: float64

7.2 示例二:收益率数据

# 假设有以下收益率数据
dates = pd.date_range(start='2023-01-01', periods=5)
returns = pd.Series([0.01, 0.015, -0.005, 0.003, 0.02], index=dates)

# 显示Series
print(returns)

输出:

2023-01-01    0.01
2023-01-02    0.02
2023-01-03   -0.01
2023-01-04    0.00
2023-01-05    0.02
dtype: float64

7.3 示例三:交易量数据

# 假设有以下交易量数据
trade_dates = pd.date_range(start='2023-01-01', periods=4, freq='B')  # 只包括工作日
volumes = pd.Series([10000, 12000, 9800, 11500], index=trade_dates)

# 显示Series
print(volumes)

输出:

2023-01-02    10000
2023-01-03    12000
2023-01-04     9800
2023-01-05    11500
dtype: int64

这些示例展示了如何使用 pandas 中的 Series 来存储和处理金融数据。在实际应用中,这些数据可能来自多种来源,如数据库、API、文件等。处理这些数据时,可能会涉及到数据清洗、转换、分析和可视化等多个步骤。通过使用 Series 的各种属性和方法,可以方便地进行这些操作,为金融分析和决策提供支持。

8. 总结

pandas的Series数据结构提供了一种灵活且功能强大的方式来存储和处理一维数据。通过显式索引的引入,Series提供了更多的数据处理和分析选项,使其成为数据分析师和数据科学家的重要工具。

  • 23
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码界领航

你的鼓励将是我最最大的创作动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值