(5) 深入探索Python-Pandas库的核心数据结构：Series详解

码界领航

已于 2024-07-06 22:30:49 修改

阅读量1.2k

点赞数 23

分类专栏： Python智能工坊文章标签： pandas 数据结构

于 2024-07-06 14:24:03 首次发布

本文链接：https://blog.csdn.net/huanzi833/article/details/140225551

版权

Python智能工坊专栏收录该内容

22 篇文章 0 订阅

订阅专栏

前言

大家好！我是架构筑梦的Cherry，本期跟大家分享的知识是 pandas 数据结构——DataFrame。

作者的【 Python智能工坊】专栏及【少儿编程Python：趣味编程，探索未来】正在火热更新中🔥🔥🔥，如果本文对您有帮助，欢迎大家点赞 + 评论 + 收藏！

1. Series 简介

pandas数据结构中的Series是一个一维数组对象，能够保存任何数据类型（整数、字符串、浮点数、Python对象等），并有一个与之关联的标签序列，这些标签被称为“索引”（index）。索引与数据是一一对应的，通过索引可以快速获取、更新或删除数据。Series在pandas数据处理中起着至关重要的作用，是构建更复杂数据结构（如DataFrame）的基础。

以下是关于pandas Series的详细解释：

定义：Series类似于一维数组或列表，但它有一个显式的索引，用于标记数据。
组成：Series由两部分组成——值（values）和索引（index）。

在金融数据分析中，pandas的Series数据结构扮演着重要角色。它可以用来存储股价、交易量、市盈率等连续或离散的数据，并通过索引轻松访问和操作这些数据。Series支持多种数据类型，允许用户根据实际需求灵活使用。

2. Series的特点

一维数组：Series是一维的，意味着它只有一个轴（或维度），类似于Python中的列表。
索引：每个Series都有一个索引，用于对数据进行标记。索引可以是整数、字符串、日期等类型。如果不指定索引，pandas将默认创建一个从0开始的整数索引。
数据类型：Series可以容纳不同数据类型的元素，包括整数、浮点数、字符串、Python对象等。
大小不变性：Series的大小在创建后是不变的，但可以通过某些操作（如append或delete）来改变。
操作：Series支持各种操作，如数学运算、统计分析、字符串处理等。
缺失数据：Series可以包含缺失数据，pandas使用NaN（Not a Number）来表示缺失或无值。

3. Series的创建

Series可以通过多种方式进行创建，包括但不限于：

使用列表或数组：可以传递一个列表或数组作为数据源来创建Series。
指定索引：可以为每个元素指定索引标签。
使用字典：字典的键成为索引，值成为数据。
使用numpy的ndarray：可以直接使用numpy数组来创建Series。

pd.Series()是创建Series的常用方法，格式如下：

pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

参数说明：

data：这是必须的参数，可以是列表、数组、字典等，用于存储Series中的数据。
index：可选参数，用于指定索引标签。如果不提供，则默认使用从0开始的整数索引。
dtype：可选参数，用于指定数据类型。如果未指定，pandas会根据数据内容自动推断数据类型。
name：可选参数，用于给Series命名。命名后的Series在打印时会显示名称，方便识别。
copy：可选参数，默认为False。如果为True，则会将数据复制到新的Series中，原始数据不受影响。
fastpath：是否启用快速路径。默认为 False。启用快速路径可能会在某些情况下提高性能。

下面是几个创建 Series 的实例：

3.1 使用列表创建Series

import pandas as pd
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)

输出：

0    1
1    2
2    3
3    4
4    5
dtype: int64

输出结果说明：
第一列：0-4 为索引值，默认从 0 开始；
第二列：1-5 为数据；
dtype: int64 为该 Series 变量的数据类型；

3.2 使用字典创建Series

import pandas as pd
data = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s2 = pd.Series(data)
print(s2)

输出：

a    1
b    2
c    3
d    4
e    5
dtype: int64

3.3 使用列表和自定义索引创建Series

import pandas as pd
labels = ['one', 'two', 'three', 'four', 'five']
s3 = pd.Series([1, 2, 3, 4, 5], index=labels)
print(s3)

输出：

one      1
two      2
three    3
four     4
five     5
dtype: int64

3.4 指定数据类型和名称

import pandas as pd
s4 = pd.Series([1.1, 2.2, 3.3, 4.4, 5.5], dtype=float, name='numbers')
print(s4)

输出：

0    1.1
1    2.2
2    3.3
3    4.4
4    5.5
Name: numbers, dtype: float64

注意：
当使用字典创建Series时，如果字典的键不是有序的（如Python 3.7之前的字典），则Series的索引顺序可能与字典的键插入顺序不同。但在Python 3.7及以后的版本中，字典保持插入顺序。
索引在Series中非常重要，它不仅用于标记数据，还用于数据的对齐和选择。因此，在创建Series时，应仔细考虑索引的设置。
如果在创建Series时提供了与数据长度不一致的索引，pandas会自动对缺失的数据使用NaN（Not a Number）进行填充。
默认情况下，如果不指定索引，pandas会为Series创建一个从0开始的整数索引。这种索引被称为“基于位置的索引”或“隐式索引”。在大多数情况下，这种索引对于数据分析和处理已经足够。然而，在需要明确标记或选择数据的情况下，可以手动指定索引标签。

4. Series的索引/切片

4.1 下标索引：基于整数位置的索引

import pandas as pd
 
# 创建一个默认的Series
s = pd.Series([10, 20, 30, 40, 50])
 
# 使用基于位置的索引访问数据
print(s[0])  
print(s[2:4])

输出：

10
2    30
3    40
dtype: int64

4.2 基于标签的索引

在pandas的Series中，基于标签的索引是一种强大的功能，它允许你通过Series的索引标签来直接访问或操作数据。这种索引方式特别适用于具有明确标签（如股票名称、日期等）的数据集。

当你创建一个Series并为其指定了索引时，你就可以使用这些索引标签来访问、修改或选择数据。

下面是基于标签索引的示例：
假设我们有一个Series，它包含了几个股票在特定日期的收盘价，并使用了股票代码作为索引标签。

import pandas as pd

# 创建一个带有股票代码作为索引的Series
stocks = pd.Series([100.5, 201.2, 150.8], index=['AAPL', 'MSFT', 'GOOGL'])

# 使用基于标签的索引访问数据
print(stocks['AAPL'])  # 输出: 100.5

# 使用多个标签选择数据（返回一个Series）
subset = stocks[['AAPL', 'GOOGL']]
print(subset)
# 输出:
# AAPL    100.5
# GOOGL   150.8
# dtype: float64

# 修改基于标签的索引的数据
stocks['AAPL'] = 101.0
print(stocks)
# 输出:
# AAPL    101.0
# MSFT    201.2
# GOOGL   150.8
# dtype: float64

在上面的示例中，我们首先创建了一个Series对象stocks，其中包含了三个股票代码（‘AAPL’, ‘MSFT’, ‘GOOGL’）和它们对应的收盘价。然后，我们使用这些股票代码作为标签来访问和修改数据。

4.3 切片

与Python中的列表或NumPy数组类似，可以使用切片来访问Series的子集。
无论是基于位置的索引还是基于标签的索引，你都可以使用切片来访问数据的子集。不过，当使用基于标签的索引进行切片时，你需要确保切片的标签在Series的索引中是存在的，并且它们是连续的。

# 使用自定义索引的Series
s = pd.Series([10, 20, 30, 40, 50], index=['A', 'B', 'C', 'D', 'E'])
 
# 使用基于标签的切片（只有当标签连续时才有效）
print(s['A':'C'])  # 输出: A    10
                   #      B    20
                   #      C    30
                   # dtype: int64
 
# 使用基于位置的切片（始终有效）
print(s[1:4])  # 输出: B    20
               #      C    30
               #      D    40
               # dtype: int64

注意：如果基于标签的切片中的标签不连续或不存在于索引中，那么你会得到一个KeyError。如果你想要选择不连续标签的数据，你需要使用索引的loc属性，并传入一个标签列表。

4.4 使用.loc[]和.iloc[]进行索引

对于更复杂的数据选择或操作，你可以使用.loc[]方法。虽然对于单个标签的访问，直接使用标签和.loc[]是等效的，但.loc[]在处理多个标签或条件选择时更加灵活。

.loc[]：基于标签的索引。
.iloc[]：基于位置的索引（总是整数位置）。

# 使用.loc[]基于标签索引
print(s.loc['A':'C'])
 
# 使用.iloc[]基于位置索引
print(s.iloc[1:4])

输出：

A    10
B    20
C    30
dtype: int64
B    20
C    30
D    40
dtype: int64

.loc[]和.iloc[]提供了更明确和灵活的索引方式，特别是在处理复杂的数据集时。

5. 基本运算

在pandas库中，Series对象支持多种基本运算，这些运算包括算术运算、比较运算和逻辑运算。
以下是关于Series基本运算的详细解释：

5.1 算术运算

算术运算包括加、减、乘、除等基本操作。
在pandas中，Series对象之间可以直接进行这些运算，且pandas会自动处理索引对齐。

5.1.1 加法（+）

两个Series相加时，相同索引位置的元素会相加。如果两个Series长度相同且索引一致，则直接对应相加；如果长度不同或索引不完全对应，结果的索引将是两个Series索引的并集，不存在的索引将填充为NaN（表示非数字）。

示例：

import pandas as pd
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['a', 'b', 'c'])
result_add = s1 + s2
print(result_add)  # 输出：a    5, b    7, c    9, dtype: int64

减法（-）、乘法（*）、除法（/）：这些运算与加法类似，都是基于索引进行对应元素的运算。

5.2 比较运算

比较运算用于比较两个Series的元素值，包括等于（==）、不等于（!=）、大于（>）、小于（<）、大于等于（>=）和小于等于（<=）等。这些运算会返回一个布尔类型的Series，表示每个元素比较的结果。

示例：

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([2, 2, 2])
result_eq = s1 == s2  # 比较是否相等
print(result_eq)  # 输出：0    False, 1     True, 2    False, dtype: bool

5.3 逻辑运算

逻辑运算在pandas中主要用于合并布尔Series。但请注意，直接对两个Series对象进行逻辑运算（如and、or）在pandas中并不直接支持，因为这会引发错误。相反，你应该使用按元素比较产生的布尔Series，并使用&（逻辑与）和|（逻辑或）等操作符进行逻辑运算。

示例：

s1_gt_1 = s1 > 1  # s1中大于1的元素
s2_lt_2 = s2 < 2  # s2中小于2的元素
result_logical = s1_gt_1 & s2_lt_2  # 逻辑与运算
print(result_logical)  # 输出：0    False, 1    False, 2    False, dtype: bool

在这个例子中，由于s1和s2中没有同时满足s1 > 1和s2 < 2的元素，所以结果全为False。

pandas的Series对象支持丰富的运算操作，包括算术运算、比较运算和逻辑运算。这些运算都是基于索引进行的，能够方便地处理和分析数据。在实际应用中，可以根据需要选择合适的运算操作来处理和分析数据。

6. 基本属性和方法

属性：包括values（数据值）、index（索引）、dtype（数据类型）、name（名称）等。
方法：提供了许多用于数据操作和分析的方法，如mean()（计算平均值）、std()（计算标准差）、unique()（返回唯一值）等。

下面是基本属性和方法的示例：

6.1 基本属性示例

首先，创建一个Series对象

import pandas as pd

s = pd.Series([100, 150, 110, 130, 150, 150], 
              index=['语文', '数学', '英语', 'Python', 'Pandas', 'NumPy'],
              name="考试成绩")

下面，是访问的基本属性：

shape：返回Series的形状（通常是一个元组，对于Series来说，通常只有一个元素表示长度）

print(s.shape)  # 输出: (6,)

size：返回Series的长度

print(s.size)  # 输出: 6

index：返回Series的索引

print(s.index)  # 输出: Index(['语文', '数学', '英语', 'Python', 'Pandas', 'NumPy'], dtype='object')

values：返回Series的值

print(s.values)  # 输出: array([100, 150, 110, 130, 150, 150], dtype=int64)

name：返回Series的名称

print(s.name)  # 输出: 考试成绩

6.2 基本方法示例

head()：查看前几条数据，默认5条

print(s.head())  # 输出前5条数据

tail()：查看后几条数据，默认5条

print(s.tail())  # 输出后5条数据

describe：返回描述统计信息

print(s.describe())

输出：

count      6.000000
mean     131.666667
std       22.286020
min      100.000000
25%      115.000000
50%      140.000000
75%      150.000000
max      150.000000
Name: 考试成绩, dtype: float64

idxmax：获取最大值和最小值的索引

print(s.idxmax())   # 输出：数学
print(s.idxmin())   # 输出：语文

dtype：数据类型

print(s.dtype)    # 输出：int64

sum：求和

print(s.sum())  # 输出：790

mean：平均值

print(s.mean())   # 输出：131.66666666666666

max：最大值

print(s.max())  # 输出：150

min：最小值

print(s.min())   # 输出：100

std：标准差

print(s.std()) # 输出：22.28601953392904

astype：将 Series 转换为另一种数据类型

s = s.astype('float64')  # 将 Series 中的所有元素转换为 float64 类型

6.3 检测缺失数据的方法

虽然在这个示例中没有缺失数据，但我们可以演示如何使用isnull()和notnull()方法。

s_with_missing = pd.Series([100, 150, None, 130, 150, 150], 
                           index=['语文', '数学', '英语', 'Python', 'Pandas', 'NumPy'],
                           name="考试成绩")

print(s_with_missing.isnull())  # 输出布尔序列，表示哪些位置是缺失值

以上展示了pandas.Series的一些基本属性和方法。这些属性和方法提供了灵活且强大的工具来操作和分析一维数据。通过结合索引、值和属性，我们可以有效地处理数据并执行各种操作。

7. 金融方面的几个series示例

在金融领域，Series 可以用于存储和处理各种金融数据，如股票价格、收益率、交易量等。以下是几个与金融相关的 Series 示例：

7.1 示例一：股票价格数据

import pandas as pd

# 假设有以下股票数据
data = {'日期': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
        '收盘价': [100.0, 101.5, 102.1, 100.8, 103.0]}

# 将数据转换为pandas的DataFrame，然后选取'收盘价'列转换为Series
df = pd.DataFrame(data)
stock_prices = df.set_index('日期')['收盘价']

# 显示Series
print(stock_prices)

输出：

日期
2023-01-01    100.0
2023-01-02    101.5
2023-01-03    102.1
2023-01-04    100.8
2023-01-05    103.0
Name: 收盘价, dtype: float64

7.2 示例二：收益率数据

# 假设有以下收益率数据
dates = pd.date_range(start='2023-01-01', periods=5)
returns = pd.Series([0.01, 0.015, -0.005, 0.003, 0.02], index=dates)

# 显示Series
print(returns)

输出：

2023-01-01    0.01
2023-01-02    0.02
2023-01-03   -0.01
2023-01-04    0.00
2023-01-05    0.02
dtype: float64

7.3 示例三：交易量数据

# 假设有以下交易量数据
trade_dates = pd.date_range(start='2023-01-01', periods=4, freq='B')  # 只包括工作日
volumes = pd.Series([10000, 12000, 9800, 11500], index=trade_dates)

# 显示Series
print(volumes)

输出：

2023-01-02    10000
2023-01-03    12000
2023-01-04     9800
2023-01-05    11500
dtype: int64

这些示例展示了如何使用 pandas 中的 Series 来存储和处理金融数据。在实际应用中，这些数据可能来自多种来源，如数据库、API、文件等。处理这些数据时，可能会涉及到数据清洗、转换、分析和可视化等多个步骤。通过使用 Series 的各种属性和方法，可以方便地进行这些操作，为金融分析和决策提供支持。

8. 总结

pandas的Series数据结构提供了一种灵活且功能强大的方式来存储和处理一维数据。通过显式索引的引入，Series提供了更多的数据处理和分析选项，使其成为数据分析师和数据科学家的重要工具。

码界领航

关注

23
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
1
评论
(5) 深入探索Python-Pandas库的核心数据结构：Series详解

# 1. Series 简介pandas数据结构中的Series是一个一维数组对象，能够保存任何数据类型（整数、字符串、浮点数、Python对象等），并有一个与之关联的标签序列，这些标签被称为“索引”（index）。索引与数据是一一对应的，通过索引可以快速获取、更新或删除数据。Series在pandas数据处理中起着至关重要的作用，是构建更复杂数据结构（如DataFrame）的基础。以下是关于pandas Series的详细解释：* **定义**：Series类似于一维数组或列表，但它有一个显式的
复制链接

扫一扫