简介
Pandas 是 Python 语言的一个扩展程序库,提供高性能医用数据类型和分析工具。Pandas 主要有 Series 和 DataFrame 两个数据类型,并基于这两个数据类型进行基本操作、运算操作、特征类操作、关联类操作等
Numpy | Pandas |
---|---|
基础数据类型 | 扩展数据类型 |
关注数据的结构表达 | 关注数据的应用表达 |
数据间的关系 | 数据与索引间的关系 |
Series
定义
Series 类型是由一组数据及与之相关的数据索引组成,或者说是一维带“标签”数组
import pandas as pd
pd.Series([9, 8, 7, 6])
# 0 9
# 1 8
# 2 7
# 3 6
pd.Series([9, 8, 7, 6], index=['a', 'b', 'c', 'd'])
# a 9
# b 8
# c 7
# d 6
创建
- Python 列表:index 要与列表元素个数一致
- 标量值:index 表示 Series 类型的尺寸,此时不能够省略 index 参数
- Python 字典:键值对中的键是索引
- ndarray:索引和数据都可以通过 ndarray 类型创建
- 其他函数:如 range() 函数等
import numpy as np
import pandas as pd
pd.Series([9, 8, 7, 6], index=['a', 'b', 'c', 'd'])
# a 9
# b 8
# c 7
# d 6
pd.Series(25, index=['a', 'b', 'c', 'd'])
# a 25
# b 25
# c 25
# d 25
pd.Series({
'a':9, 'b':8, 'c':7})
# a 9
# b 8
# c 7
pd.Series({
'a':9, 'b':8, 'c':7}, index=['c', 'a', 'b'. 'd'])
# c 7
# a 9
# b 8
# d NaN
pd.Series(np.arange(5))
# 0 0
# 1 1
# 2 2
# 3 3
# 4 4
pd.Series(np.arange(5), index=np.arange(9,4,-1))
# 9 0
# 8 1
# 7 2
# 6 3
# 5 4
操作
Series 类型对象和索引有 name 属性
import pandas as pd
b = pd.Series