Pandas快速入门——基础速览

原创已于 2025-10-04 14:41:45 修改 · 563 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #numpy #python #深度学习

于 2025-10-04 14:40:10 首次发布

深度学习专栏收录该内容

2 篇文章

订阅专栏

『AI先锋杯·14天征文挑战第6期』 10w+人浏览 246人参与

Pandas 是 Python 里最常用的数据分析工具库之一，适合做数据清洗、数据统计、表格处理等工作。

文章记录的只是 部分基础和常用命令，如需深入学习了解，可以移步pandas 官方文档

2.2.3 Dataframe的常用函数方法

1. Pandas 简介

pandas 是基于 NumPy 的数据分析库。
pands的英文全称pannel data（面板数据）
核心数据结构：
- Series：一维数据，类似一列。
- DataFrame：二维表格，类似 Excel。
常用于：
- 读写数据（csv、excel、sql、json等）。
- 数据清洗（缺失值、重复值、数据替换）。
- 数据筛选与过滤。
- 分组统计与聚合。
- 时间序列分析。
特别适合处理结构化数据，如表格类型的数据（类似Excel的表格，关系型数据库SQL）

2. 核心数据结构

2.1 Series

2.1.1 Series的创建

如图左侧为Series Index，代表索引

A为Series Name，代表名字

下边空行为Series Values，代表代表值

一维带标签的数组，可以看成是 索引 + 值。

import pandas as pd

# 创建 Series
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s)

输出：

a    10
b    20
c    30
dtype: int64

另外还有两种创建方式：

import pandas as pd

# 创建 Series，同时指定索引和名字
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'], name="鸣潮_Series")

# 通过字典创建 Series
s2 = pd.Series({'无妄者': 60, '鉴心': 70, '吟霖': 80}, name="鸣潮角色等级")

常用操作：

s.values 取值数组
s.index 索引
s['a'] 按标签取值
s[0] 按位置取值

2.1.2 Series的常用属性

import pandas as pd

# 创建一个 Series
s = pd.Series([10, 20, 30, 40, 50], index=["a", "b", "c", "d", "e"], name="scores")

print("索引:", s.index)
print("值:", s.values)
print("数据类型:", s.dtype)
print("形状:", s.shape)
print("大小:", s.size)
print("维度:", s.ndim)
print("名称:", s.name)
print("是否唯一:", s.is_unique)
print("是否有缺失值:", s.hasnans)
print("内存占用:", s.memory_usage())

输出

索引: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
值: [10 20 30 40 50]
数据类型: int64
形状: (5,)
大小: 5
维度: 1
名称: scores
是否唯一: True
是否有缺失值: False
内存占用: 148

2.1.3 Series的常用函数方法

import pandas as pd

s = pd.Series([10, 20, 20, None, 40, 50, 50, 50], name="scores")

print("唯一值:", s.unique())
print("唯一值数量:", s.nunique())
print("值频率:\n", s.value_counts())
print("平均值:", s.mean())
print("描述统计:\n", s.describe())
print("是否缺失:\n", s.isnull())
print("填充缺失:\n", s.fillna(0))
print("去重:\n", s.drop_duplicates())
print("排序:\n", s.sort_values(ascending=False))

输出

唯一值: [10. 20. nan 40. 50.]
唯一值数量: 4
值频率:
50.0    3
20.0    2
10.0    1
40.0    1
Name: scores, dtype: int64
平均值: 31.666666666666668
描述统计:
count     7.000000
mean     32.857143
std      15.198684
min      10.000000
25%      20.000000
50%      40.000000
75%      50.000000
max      50.000000
Name: scores, dtype: float64
是否缺失:
0    False
1    False
2    False
3     True
4    False
5    False
6    False
7    False
Name: scores, dtype: bool
填充缺失:
0    10.0
1    20.0
2    20.0
3     0.0
4    40.0
5    50.0
6    50.0
7    50.0
Name: scores, dtype: float64
去重:
0    10.0
1    20.0
3     NaN
4    40.0
5    50.0
Name: scores, dtype: float64
排序:
5    50.0
6    50.0
7    50.0
4    40.0
1    20.0
2    20.0
0    10.0
3     NaN
Name: scores, dtype: float64

2.1.4 Series的布尔索引

import pandas as pd

s = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])

print("原始数据:\n", s)

# 筛选大于30的元素
print("\n大于30:\n", s[s > 30])

# 筛选等于20的元素
print("\n等于20:\n", s[s == 20])

# 筛选不等于10的元素
print("\n不等于10:\n", s[s != 10])

输出

原始数据:
a    10
b    20
c    30
d    40
e    50
dtype: int64

大于30:
d    40
e    50
dtype: int64

等于20:
b    20
dtype: int64

不等于10:
b    20
c    30
d    40
e    50
dtype: int64

多个条件要用 &（与）、|（或）、~（非），注意要加括号：

# 大于20 且 小于50
print("\n20 < x < 50:\n", s[(s > 20) & (s < 50)])

# 等于10 或 等于50
print("\n等于10或50:\n", s[(s == 10) | (s == 50)])

# 非大于30
print("\n不是大于30:\n", s[~(s > 30)])

2.1.5 Series的运算

运算类别	示例	说明	示例结果
算术运算	`s + 5`	每个元素加 5	`[15, 25, 35, 45]`
	`s - 2`	每个元素减 2	`[8, 18, 28, 38]`
	`s * 2`	每个元素乘 2	`[20, 40, 60, 80]`
	`s / 10`	每个元素除以 10	`[1.0, 2.0, 3.0, 4.0]`
	`s ** 2`	每个元素平方	`[100, 400, 900, 1600]`
两个 Series 运算	`s1 + s2`	按索引自动对齐，缺失补 NaN	`a:NaN, b:21, c:32, d:NaN`
统计运算	`s.sum()`	求和	`100`
	`s.mean()`	平均值	`25.0`
	`s.max()`	最大值	`40`
	`s.min()`	最小值	`10`
	`s.std()`	标准差	`12.91`
逻辑运算	`s > 20`	大于 20 的元素标记为 True	`[False, False, True, True]`
	`s == 30`	判断是否等于 30	`[False, False, True, False]`
	`s != 40`	判断是否不等于 40	`[True, True, True, False]`
Numpy 函数运算	`np.sqrt(s)`	逐元素开方	`[3.16, 4.47, 5.47, 6.32]`
	`np.exp(s)`	指数运算	`[2.2e4, 4.8e8, 1.07e13, 2.35e17]`
	`np.sin(s)`	正弦运算	`[-0.54, 0.91, -0.99, 0.75]`

2.2 DataFrame

2.2.1 DataFrame的创建

DataFrame是 Pandas 中最常用的数据结构，类似于 Excel 表格 或 数据库中的数据表。

其中：

行（row）：用索引（Index）标记。
列（column）：用列名（Column Labels）标记。
数据（data）：本质上存放在 Numpy 数组中，运算效率高。

可以理解为：
Series = 一维数组（带索引）
DataFrame = 多个 Series 的集合（共享一个行索引）。

二维表格，带行索引和列索引。

data = {
    'name': ['Tom', 'Jerry', 'Spike'],
    'age': [20, 21, 19],
    'score': [90, 85, 88]
}
df = pd.DataFrame(data)
print(df)

输出：

    name  age  score
0    Tom   20     90
1  Jerry   21     85
2  Spike   19     88

常用属性：

df.shape 行列数
df.columns 列名
df.index 行索引
df.values 转为数组