前言
众所周知,numpy 库是科学计算的基础库。我们前面学习了numpy ndarray 对象要求数组中数据元素同质。同时,numpy 数组元素值内存空间大小一致,并且底层采用C-order(行优先存储)或者Fortran-order(列优先存储)两种存储方式。使之numpy 数组相比Python list计算速度和内存上更加有优势。
在 numpy 索引与切片 和 numpy 高级索引中,知道了数组也与Python list等一样支持索引。numpy 数组索引通过非负整数元组、布尔值、其他数组或者整数来实现的。
大伙肯定和我一样,numpy 数据要求数据类型都必须要同质的,哪面对不同类型的数据需要计算咋搞?
我们都知道,如果使用Python内置库中,我们都知道可以支持key-value字典的数据类型,可以轻松实现我们上述的场景。
哪如果numpy 如果不支持这一场景,我们就放弃使用它,哪它怎么会是科学Python 和PyData生态系统的核心?
一通网上查阅,哈哈,终于被我们发现了,numpy 数组还有一种叫结构化数组的概念。
本期,我们将学习 numpy 库的结构化数组相关知识,Let’s go~
1. numpy 结构化数组概述
-
什么是结构化数组?
numpy 结构化数组是通过dtype 定义的字段组成的一组ndarray数组。
我们使用Python中dict可以轻松使用key-value形式、list或者tuple就可以定义如下数据。
Python dict 字典实现:
```
stu1 = {"name":"Tom","age":10,"weight":50}
stu2 = {"name":"Anne","age":12,"weight":42}
stu_list = [stu1,stu2]
复制代码
```
Python list+tuple实现
```
stu_list = [("Tom",10,50),("Anne",12,42)]
复制代码
```
对于numpy 结构化数组,通过 dtype 定义每个字段数据类型,实现如下
```
>>> stu_list = np.array([("Tom",10,50),("Anne",12,42)],dtype=[("name","U10"),("age","i4"),("weight","i8")])
>>> stu_list
array([('Tom', 10, 50), ('Anne', 12, 42)],
dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<i8')])
>>>
复制代码
```
numpy 数组中,我们可以通过dtype 查询数组中元素的数据类型。
在上述案例中,我们定义name字段数据类型为Unicode,age字段为int32,weight字段为int64
numpy 支持的数据类型与C语言的数据类型对应,常见的有如下几个及对应的内置码
| 数据类型 | 内置码 | 意义 |
| --- | --- | --- |
| int8 | i1 | 字节(-128 to 127) |
| int16 | i2 | 整数,16位字节 |
| int32 | i4 | 整数,32位字节 |
| int64 | i8 | 整数,64位字节 |
| float16 | f2 | 浮点型,16位字节 |
| float32 | f4 | 浮点型,32位字节 |
| float64 | f8 | 浮点型,64位字节 |
| bool_ | b | 布尔类型 |
| Unicode | U | Unicode编码 |
| String | S | 字符串 |
-
结构化数组特点
- 结构化数据类型创建来源于 C 语言数据结构,并且可以共享内存空间
- numpy 结构化数组是解决C代码接口和结构化缓冲区的低级操作
- 结构化数组支持数据嵌套、联合,并允许控制其内存布局
- 结合化数组因为基于C结构的内存布局,不适合操作表格数据导致缓存行为不佳
2. 结构化数据类型类型
通过上述,我们知道numpy 结构化数组与普数组主要区别是,在创建时需要通过dtype定义数组中数据字段类型。
因此,结构化数据类型可以被看做一定长度的字节序列(itemsize),通常被解释为字段的集合。
通常字段中主要由三部分组成:字段名称,数据类型和字节偏移量(可选)
3. 结构化数据类型创建
在 numpy 库中我们可以使用 numpy.dtype
j来进行创建结构化数据类型。
-
方法一:元组列表形式
在结构化数据类型创建可以使用元组形式进行定义。
-
每一个元组表示一个字段的,形式如(name,datatype,shape)
-
元组中的shape 字段是可选字段
-
datatype可以定义为任何类型
>>> np.dtype([("address","S5"),("family","U10",(2,2))]) dtype([('address', 'S5'), ('family', '<U10', (2, 2))]) >>> 复制代码
-
-
方法二:以逗号分隔
在numpy 库中可以支持带逗号分隔基本格式字符串来定义dtype。
-
逗号分隔基本格式字符串形式如:“i7,f4,U10”
-
字段中name系统自动生成如:f0,f1等形式
-
字段中的偏离量系统自动确认
>>> np.dtype("i8,S4,f4") dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4')]) >>> np.dtype("i8,S4,(5,3)f4") dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4', (5, 3))]) >>> 复制代码
-
-
方法三:以字典形式表示各参数
以Python 字典 key-value 形式定义每个字段参数类型。
- 字典形式定义字段形式如:{“name”:[],“formats”:[],“offsetd”:[],“itemsize”:}
- name 代表:长度相同的字段名称列表
- formats 代表: dtype基本格式列表
- offsets: 偏移量列表,可选字段。
- itemsize: 描述dtype总大小,可选字段
字典形式表示字段内容,可以允许控制字段偏离量和itemsize大小
>>> np.dtype({"names":["name","age"],"formats":["S6","i4"]}) dtype([('name', 'S6'), ('age', '<i4')]) >>> np.dtype({"names":["name","age"],"formats":["S6","i4"],"offsets":[2,3],"itemsize":12}) dtype({'names':['name','age'], 'formats':['S6','<i4'], 'offsets':[2,3], 'itemsize':12}) >>> 复制代码
-
方法四:以字典形式表示字段名称
此方法,是以字典的key 值表示字段名(name),value 值以元组形式表示指定类型和偏离量。
在Python 3.6 版本中,不保留字典的顺序操作,而对于numpy 结构化dtype中字段的顺序是有意义的。因此,该方法官方不建议使用该方法创建
>>> np.dtype({"name":("S6",0),"age":("i8",1)}) dtype({'names':['name','age'], 'formats':['S6','<i8'], 'offsets':[0,1], 'itemsize':9}) >>>