Python numpy之结构化数据类型

大靠山

已于 2024-01-25 15:45:23 修改

阅读量2.4k

点赞数 3

分类专栏： python

于 2022-02-02 10:30:00 首次发布

本文链接：https://blog.csdn.net/m0_59235245/article/details/122715839

版权

numpy 结构化数组 dtype 字段类型创建方法

关键词由CSDN通过智能技术生成

python 专栏收录该内容

12 篇文章

订阅专栏

numpy结构化数组允许不同类型的元素共存，类似于Python的dict，但更高效。它通过dtype定义字段类型，支持元组列表、逗号分隔字符串、字典等多种创建方式。结构化数据类型包括字段名称、数据类型和可选的字节偏移量。创建时可通过dtype指定字段名、格式、偏移量和itemsize。结构化数组适合处理包含多种类型数据的场景，但在操作表格数据时可能效率较低。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

众所周知，numpy 库是科学计算的基础库。我们前面学习了numpy ndarray 对象要求数组中数据元素同质。同时，numpy 数组元素值内存空间大小一致，并且底层采用C-order（行优先存储）或者Fortran-order（列优先存储）两种存储方式。使之numpy 数组相比Python list计算速度和内存上更加有优势。

在 numpy 索引与切片和 numpy 高级索引中，知道了数组也与Python list等一样支持索引。numpy 数组索引通过非负整数元组、布尔值、其他数组或者整数来实现的。

大伙肯定和我一样，numpy 数据要求数据类型都必须要同质的，哪面对不同类型的数据需要计算咋搞？

我们都知道，如果使用Python内置库中，我们都知道可以支持key-value字典的数据类型，可以轻松实现我们上述的场景。

哪如果numpy 如果不支持这一场景，我们就放弃使用它，哪它怎么会是科学Python 和PyData生态系统的核心？

一通网上查阅，哈哈，终于被我们发现了，numpy 数组还有一种叫结构化数组的概念。

本期，我们将学习 numpy 库的结构化数组相关知识，Let’s go~

1. numpy 结构化数组概述

什么是结构化数组？

numpy 结构化数组是通过dtype 定义的字段组成的一组ndarray数组。

我们使用Python中dict可以轻松使用key-value形式、list或者tuple就可以定义如下数据。

Python dict 字典实现：

```
stu1 = {"name":"Tom","age":10,"weight":50}
stu2 = {"name":"Anne","age":12,"weight":42}
stu_list = [stu1,stu2]
复制代码
```

Python list+tuple实现

```
stu_list = [("Tom",10,50),("Anne",12,42)]
复制代码
```

对于numpy 结构化数组，通过 dtype 定义每个字段数据类型，实现如下

```
>>> stu_list = np.array([("Tom",10,50),("Anne",12,42)],dtype=[("name","U10"),("age","i4"),("weight","i8")])
>>> stu_list
array([('Tom', 10, 50), ('Anne', 12, 42)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<i8')])
>>>
复制代码
```

numpy 数组中，我们可以通过dtype 查询数组中元素的数据类型。

在上述案例中，我们定义name字段数据类型为Unicode,age字段为int32,weight字段为int64

numpy 支持的数据类型与C语言的数据类型对应，常见的有如下几个及对应的内置码

| 数据类型 | 内置码 | 意义 |
| --- | --- | --- |
| int8 | i1 | 字节（-128 to 127） |
| int16 | i2 | 整数,16位字节 |
| int32 | i4 | 整数,32位字节 |
| int64 | i8 | 整数,64位字节 |
| float16 | f2 | 浮点型，16位字节 |
| float32 | f4 | 浮点型，32位字节 |
| float64 | f8 | 浮点型，64位字节 |
| bool_ | b | 布尔类型 |
| Unicode | U | Unicode编码 |
| String | S | 字符串 |

结构化数组特点
- 结构化数据类型创建来源于 C 语言数据结构，并且可以共享内存空间
- numpy 结构化数组是解决C代码接口和结构化缓冲区的低级操作
- 结构化数组支持数据嵌套、联合，并允许控制其内存布局
- 结合化数组因为基于C结构的内存布局，不适合操作表格数据导致缓存行为不佳

2. 结构化数据类型类型

通过上述，我们知道numpy 结构化数组与普数组主要区别是，在创建时需要通过dtype定义数组中数据字段类型。

因此，结构化数据类型可以被看做一定长度的字节序列（itemsize）,通常被解释为字段的集合。

通常字段中主要由三部分组成：字段名称，数据类型和字节偏移量(可选)

3. 结构化数据类型创建

在 numpy 库中我们可以使用 numpy.dtypej来进行创建结构化数据类型。

方法一：元组列表形式

在结构化数据类型创建可以使用元组形式进行定义。
- 每一个元组表示一个字段的，形式如(name,datatype,shape)
- 元组中的shape 字段是可选字段
- datatype可以定义为任何类型
```
>>> np.dtype([("address","S5"),("family","U10",(2,2))])
dtype([('address', 'S5'), ('family', '<U10', (2, 2))])
>>>
复制代码
```
方法二：以逗号分隔

在numpy 库中可以支持带逗号分隔基本格式字符串来定义dtype。
- 逗号分隔基本格式字符串形式如：“i7,f4,U10”
- 字段中name系统自动生成如：f0,f1等形式
- 字段中的偏离量系统自动确认
```
>>> np.dtype("i8,S4,f4")
dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4')])
>>> np.dtype("i8,S4,(5,3)f4")
dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4', (5, 3))])
>>>

复制代码
```
方法三：以字典形式表示各参数

以Python 字典 key-value 形式定义每个字段参数类型。
- 字典形式定义字段形式如：{“name”:[],“formats”:[],“offsetd”:[],“itemsize”：}
- name 代表：长度相同的字段名称列表
- formats 代表： dtype基本格式列表
- offsets: 偏移量列表，可选字段。
- itemsize：描述dtype总大小，可选字段
字典形式表示字段内容，可以允许控制字段偏离量和itemsize大小
```
>>> np.dtype({"names":["name","age"],"formats":["S6","i4"]})
dtype([('name', 'S6'), ('age', '<i4')])
>>> np.dtype({"names":["name","age"],"formats":["S6","i4"],"offsets":[2,3],"itemsize":12})
dtype({'names':['name','age'], 'formats':['S6','<i4'], 'offsets':[2,3], 'itemsize':12})
>>>

复制代码
```
方法四：以字典形式表示字段名称

此方法，是以字典的key 值表示字段名（name），value 值以元组形式表示指定类型和偏离量。

在Python 3.6 版本中，不保留字典的顺序操作，而对于numpy 结构化dtype中字段的顺序是有意义的。因此，该方法官方不建议使用该方法创建
```
>>> np.dtype({"name":("S6",0),"age":("i8",1)})
dtype({'names':['name','age'], 'formats':['S6','<i8'], 'offsets':[0,1], 'itemsize':9})
>>>
```