nunmpy(三)——自定义数据类型:结构化数组
import numpy as np
本篇介绍numpy中自定义数据类型的方法,以解决numpy中元素数据类型必须一致的问题
本篇的代码全部来自《Python数据科学手册从》中相关章节,见P81-P84
“numpy中结构化数组为复合的,异构的数据提供了非常有效的存储”,具体创建方法则如下:
首先假设三组关于个人信息的分类数据:
name = ["Alice","Bob","Cindy","David"]
age = [21,22,23,24]
weight = [65.0,66.5,67.0,68.5]
然后,可以通过一个names-formats字典创建结构化数据类型:
arr_strcture = np.zeros(4,dtype={
"names":("name","age","weight"), #指明字段的名称
"formats":("U10","i1","f2") #指明字段的数据类型
})
arr_strcture
array([('', 0, 0.), ('', 0, 0.), ('', 0, 0.), ('', 0, 0.)],
dtype=[('name', '<U10'), ('age', 'i1'), ('weight', '<f2')])
现在,我们已经创建了一个结构化数组,但是数据仍然是空的,因此需要向其中填充数据。在结构化数组中,填充数据可以采用类似字典的方式:
arr_strcture["name"] = name
arr_strcture["age"] = age
arr_strcture["weight"] = weight
arr_strcture
array([('Alice', 21, 65. ), ('Bob', 22, 66.5), ('Cindy', 23, 67. ),
('David', 24, 68.5)],
dtype=[('name', '<U10'), ('age', 'i1'), ('weight', '<f2')])
当然,数据填充完了以后还可以查找数据:
arr_strcture["age"] #按照字段进行数据查找
array([21, 22, 23, 24], dtype=int8)
arr_strcture["age"][1]
22
arr_strcture[0] #按照数据的自然结构进行查找,查找第一条数据
('Alice', 21, 65.)
arr_strcture[0:2]
array([('Alice', 21, 65. ), ('Bob', 22, 66.5)],
dtype=[('name', '<U10'), ('age', 'i1'), ('weight', '<f2')])
你甚至可以做一些高级操作:
arr_strcture[arr_strcture["age"] <= 23]["name"] #找出表中年龄不大于24的人的名字
array(['Alice', 'Bob', 'Cindy'],
dtype='<U10')
总之,一个结构化数组是非常类似于数据表的,可以按数据行和数据列(字段)进行操作
创建结构化数组的关键在于如何创建相应的dtype对象,除了上述的names-formats字典外,也可以用元组列表的方法:
data_type = np.dtype([("name","U10"),("age","i1"),("weight","f2")]) #创建一个dtype对象
data_type
dtype([('name', '<U10'), ('age', 'i1'), ('weight', '<f2')])
arr_strcture2 = np.zeros(4,dtype=data_type)
arr_strcture2
array([('', 0, 0.), ('', 0, 0.), ('', 0, 0.), ('', 0, 0.)],
dtype=[('name', '<U10'), ('age', 'i1'), ('weight', '<f2')])