python 中NumPy的使用
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,主要用于数组计算,包含:
一个强大的N维数组对象 ndarray,通过array函数调用
创建结构化数据类型(类型字段和对应的实际类型)
import numpy as np #引入模块,并名为np
dt = np.dtype([('age',np.int8)]) #调用NP,in其中int8, int16, int32, int64 四种数据类型对应字符串 'i1', 'i2','i4','i8'
print(dt)
输出结果为:
[('age', 'i1')] #当前元组(‘age’,'i1')用来生命一个数据字段名为‘age ‘,数据类型为 i1 也就是int8
例子:一个结构化数据类型 student,包含字符串字段 name,整数字段 age,及浮点字段 marks,则定义结构类型 dtype,然后应用 ndarray 对象(调用array行数)。
第一步:结构定义:
dt=np.dtype([('sno','S20'),('sname',np.float32),('grade',np.int8)]) #S20表示特定长度的字符串
print(dt) # 一个数据结构中三个数据字段的名字和类型
输出结果为
[('sno', 'S20'), ('sname', '<f4'), ('grade', 'i1')]
第二步,把定义的结构应用到数据中综合应用
# 一个数据结构中三个数据字段的应用
dt=np.dtype([('sno','S20'),('sname','S20'),('grade',np.int8)]) #S20表示特定长度的字符串
print(dt)
a=np.array([('sno001','xiaoli',90),('sno002','xiaozhang',100)],dtype=dt)
#a整个表格输出
print(' the whole a :',a)
# 按照列的方式输出
print('the column of sno: ',a['sno'])
print('the column of sname: ',a['sname'])
print('the column of grade: ',a['grade'])
输出结果
[('sno', 'S20'), ('sname', 'S20'), ('grade', 'i1')]
the whole a : [(b'sno001', b'xiaoli', 90) (b'sno002', b'xiaozhang', 100)]
the column of sno: [b'sno001' b'sno002']
the column of sname: [b'xiaoli' b'xiaozhang']
the column of grade: [ 90 100]
以上编码有涉及 python的编码问题,后面另行说明
NumPy 切片和索引
ndarray对象的内容可以通过索引或切片来访问和修改,与 Python 中 list 的切片操作一样。
ndarray 数组可以基于 0 - n 的下标进行索引,切片对象可以通过内置的 slice 函数,并设置 start, stop 及 step 参数进行,从原数组中切割出一个新数组。
import numpy as np
a = np.arange(10)
s = slice(2,7,3) # 从索引 2 开始到索引 7 停止,索引号步长间隔为3
print (a[s])
输出结果为:
[2,5]
我们首先通过 arange() 函数创建 ndarray 对象。 然后,分别设置起始,终止和步长的参数为 2,7 和 3。
我们也可以通过冒号分隔切片参数 start:stop:step 来进行切片操作:
b = a[2:7:3] # 从索引 2 开始到索引 7 停止,间隔为 3
冒号 : 的解释:如果只放置一个参数,如 [2],将返回与该索引相对应的单个元素。如果为 [2:],表示从该索引开始以后的所有项都将被提取。如果使用了两个参数,如 [2:7],那么则提取两个索引(不包括停止索引)之间的项。
注意:多维数组同样适用上述索引提取方法, 不同维度之间的下标索引值之间用逗号(,)隔开a[1:,3]:表示从第2行开始的所有行在第四列的数据
多维数组的操作
import numpy as np
a = np.array([[1,2,3],[3,4,5],[4,5,6]])
print("the a array is:",a)
print('从数组索引 a[1:] 处开始切割')
print(a[1:])
输出结果
the a array is:[[1 2 3]
[3 4 5]
[4 5 6]]
#从数组索引 a[1:] 处开始切割
[[3 4 5]
[4 5 6]]
## 2 切片还可以包括省略号 …,来使选择元组的长度与数组的维度相同。 如果在行位置使用省略号,它将返回包含行中元素的 ndarray,例如
import numpy as np
a = np.array([[1,2,3],[3,4,5],[4,5,6]])
print (a[…,1]) # 第2列元素
print (a[1,…]) # 第2行元素
print (a[…,1:]) # 第2列及剩下的所有元素
输出结果
[2 4 5]
[3 4 5]
[[2 3]
[4 5]
[5 6]]
## NumPy 高级索引
NumPy 比一般的 Python 序列提供更多的索引方式。
除了前面介绍的整数和切片的索引外,还可以进行整数数组索引、布尔索引及花式索引。
使用整数数组、布尔数组或者其他序列来访问数组的元素。相比于基本索引,高级索引可以访问到数组中的任意元素,并且可以用来对数组进行复杂的操作和修改。
整数数组索引是指使用一个数组来访问另一个数组的元素。这个数组中的每个元素都是目标数组中某个维度上的索引值。
数组a= np.array([[1, 2], [3, 4], [5, 6]])
如果输出数组中 (0,0),(1,1) 和 (2,0) 位置处的元素。
则print(a[[0,1,2],[0,1,0]]
输出三个元素为:[1 4 5]
例子: 输出 4X3 数组中的四个角的元素。
x = np.array([[ 0, 1, 2],[ 3, 4, 5],[ 6, 7, 8],[ 9, 10, 11]])
print (‘我们的数组是:’ )
print (x)
print (‘\n’)
rows = np.array([[0,0],[3,3]]) # 行索引数组
cols = np.array([[0,2],[0,2]]) #列索引数组
y = x[rows,cols]
print (‘这个数组的四个角元素是:’)
print (y)
输出结果为[0,2] ,[9,11]
方案二:
x = np.array([[ 0, 1, 2],[ 3, 4, 5],[ 6, 7, 8],[ 9, 10, 11]])
print (‘我们的数组是:’ )
print (x)
print (‘\n’)
rows = np.array([[0,0,3,3]]) #行索引
cols = np.array([[0,2,0,2]]) # 列索引
y = x[rows,cols]
print (‘这个数组的四个角元素是:’)
print (y)
输出结果为【[0,2,9,11]】
## 借助切片 : 或 … 与索引数组组合。如:
import numpy as np
a = np.array([[1,2,3], [4,5,6],[7,8,9]])
b = a[1:3, 1:3] # 行索引1-3,列索引1-3
c = a[1:3,[1,2]] 行索引1-3,列索引第1列和第三列
d = a[…,1:] # 行不限制,列从第二列(编号为0)开始
print(b)
print©
print(d)
输出结果为:
[[5 6]
[8 9]]
[[5 6]
[8 9]]
[[2 3]
[5 6]
[8 9]]
## 布尔索引
布尔索引通过布尔运算(如:比较运算符)来获取符合指定条件的元素的数组。
在上一个例子中最后一行改为print(d[d>5]) 则输出的结果为:[6 8 9]
在布尔运算中也可以使用 ~(取补运算符)进行操作
import numpy as np
a = np.array([np.nan, 1,2,np.nan,3,4,5]) # np.nan 非整数
print (a[~np.isnan(a)]) # 输出结果为剔除出非整数的元素 即【1,2,3,4,5】
## 花式索引
花式索引指的是利用整数数组进行索引。
花式索引根据索引数组的值作为目标数组的某个轴的下标来取值。
对于使用一维整型数组作为索引,如果目标是一维数组,那么索引的结果就是对应位置的元素,如果目标是二维数组,那么就是对应下标的行。
花式索引跟切片不一样,它总是将数据复制到新数组中。
x = np.array([2,3,4,1,5,0,2])
print(x) # 输出结果为[2,3,4,1,5,0,2]
一维数组读取指定下标对应的元素
print(“-------读取下标对应的元素-------”)
x2 = x[[2, 4]] # 使用花式索引
print(x2) # 输出结果为x中的第 3和第五个元素【4,5】
print(x2[0]) # 4
print(x2[1]) #5
a=np.array([10,20,0,40,60,50])
print(x[x2])
print(a[x2])
命令输出的结果为
[2 5]
2
5
[4 0]
[ 0 50]
## 二维数组
1、传入顺序索引数组,print("this :",a[[0,1]]) #输出第0行和第1行的元素
···
a=np.arange(9).reshape((3,3))
print(a)
print(a[0,1]) # 第1行,第二列的元素 1
print(a[a[0,1]]) # 输出a[1] 即地行的元素
print("this :",a[[0,1]]) #输出第0行和第1行的元素
以上代码输出结果为:
[[0 1 2]
[3 4 5]
[6 7 8]]
1
[3 4 5]
this : [[0 1 2]
[3 4 5]]
2、 传入倒序索引数组
传输的索引数组是负数,表示要索引的数据位置从最后一个开始算起
print(“this :”,a[[-1,-2]]) #输出最后1行和最后第二行的元素
按照上面的二维数据,输出的结果为:
this : [[6 7 8]
[3 4 5]]
3、传入多个索引数组(要使用 np.ix_)
np.ix_ 函数就是输入两个数组,产生笛卡尔积的映射关系。
笛卡尔乘积是两个集合 X 和 Y 的笛卡尔积(Cartesian product),又称直积(X×Y),第一个对象是X的成员与第二个对象是 Y 的所有可能有序对的集合。
例如 A={a,b}, B={0,1},则:
A×B={(a, 0), (a, 1), (b, 0), (b, 1)}
B×A={(0, a), (0, b), (1, a), (1, b)}
python 代码应用:
代码:
x=np.arange(9).reshape((3,3))
print (x[np.ix_([0,1,2],[1,2])]) # 输出[0,1,2]与[1,2]笛卡尔积后的有序对对应的下标数据
运行结果:
[[1 2]
[4 5]
[7 8]]