NumPy 是 Python 语言的一个扩充程序库。支持大量高维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。机器学习涉及到大量对数组的变换和运算,NumPy 就成了必不可少的工具之一。基于之前对 numpy 的使用较零散,笔者今天对 numpy 的各个常用知识点做一个归纳总结,并都以实例形式展现(基于python3.6 与 NumPy1.14.2,输入与输入都放入代码块中,输入前标注>>>,输出以注释形式给出)。
1. linspace(start, stop, …)
(1)创建等间隔一维数组(6个数字)
>>> np.linspace(1, 10, num=6)
# array([ 1. , 2.8, 4.6, 6.4, 8.2, 10. ])
(2) 创建一个长度为 5 的等间隔一维数组,其值域范围从 0 到 1,但是不包括 0 和 1
>>> np.linspace(0,1,6,endpoint=False)[1:]
# array([0.16666667, 0.33333333, 0.5 , 0.66666667, 0.83333333])
2. fromfunction(func, (shape)) 与 lambda 函数
匿名函数 lambda:是指一类无需定义标识符(函数名)的函数或子程序。
lambda 函数可以接收任意多个参数 (包括可选参数) 并且返回单个表达式的值。
以下面的实例(1)来解释 fromfunction(func, (shape))函数:
- 并没有各个坐标迭代多次调用函数,实际上只调用了一次函数;
- 传入的参数是各个维度的坐标数组。例如 shape 是3x3的数组,传入的第一个参数是:
[[0,0,0],
[1,1,1],
[2,2,2]]
第二个参数是:
[[0,1,2],
[0,1,2],
[0,1,2]] - 传入各个维的坐标数组之后,剩下的就是数组计算了。
(1)依据自定义函数创建数组
>>> np.fromfunction(lambda i, j: i + j, (3, 3))
# array([[0., 1., 2.],
[1., 2., 3.],
[2., 3., 4.]])
(2)使用 NumPy 打印九九乘法表
>>> np.fromfunction(lambda i, j: (i + 1) * (j + 1), (9, 9))
# array([[ 1., 2., 3., 4., 5., 6., 7., 8., 9.],
[ 2., 4., 6., 8., 10., 12., 14., 16., 18.],
[ 3., 6., 9., 12., 15., 18., 21., 24., 27.],
[ 4., 8., 12., 16., 20., 24., 28., 32., 36.],
[ 5., 10., 15., 20., 25., 30., 35., 40., 45.],
[ 6., 12., 18., 24., 30., 36., 42., 48., 54.],
[ 7., 14., 21., 28., 35., 42., 49., 56., 63.],
[ 8., 16., 24., 32., 40., 48., 56., 64., 72.],
[ 9., 18., 27., 36., 45., 54., 63., 72., 81.]])
3. 双冒号 :: 的使用
Python 序列切片地址可以写为[开始:结束:步长],其中的开始和结束可以省略。
(1)创建一个 10x10 的二维数组,并使得 1 和 0 沿对角线间隔放置
>>> Z = np.zeros((10,10),dtype=int)
>>> Z[1::2,::2] = 1
>>> Z[::2,1::2] = 1
>>> Z
# array([[0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
[1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
[0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
[1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
[0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
[1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
[0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
[1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
[0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
[1, 0, 1, 0, 1, 0, 1, 0, 1, 0]])
4. intersect1d()
(1)求两个数组的交集
>>> np.intersect1d([1, 3, 4, 3], [3, 1, 2, 1])
# array([1, 3])
(2)交集的数组多于两个, 可使用 functools.reduce:
>>> from functools import reduce
>>> reduce(np.intersect1d, ([1, 3, 4, 3], [3, 1, 2, 1], [6, 3, 4, 2]))
# array([3])
5. argsort()
(1)将随机二维数组按照第 3 列从上到下进行升序排列:
>>> Z = np.random.randint(0,10,(5,5))
>>> print("排序前:\n",Z)
>>> Z[Z[:,2].argsort()]
# 排序前:
[[0 8 2 9 8]
[7 1 1 3 8]
[2 2 6 1 9]
[5 7 7 5 3]
[4 3 6 2 6]]
# array([[7, 1, 1, 3, 8],
[0, 8, 2, 9, 8],
[2, 2, 6, 1, 9],
[4, 3, 6, 2, 6],
[5, 7, 7, 5, 3]])
6. bincount()
(1)找出随机一维数组中出现频率最高的值
>>> Z = np.random.randint(0,10,50)
>>> print("随机一维数组:", Z)
>>> np.bincount(Z).argmax()
# 随机一维数组: [7 3 1 0 0 6 3 3 4 2 2 9 4 3 9 9 2 5 4 8 4 9 2 8 1 9 1 0 0 8 5 8 0 8 2 3 2
4 8 1 0 1 3 6 6 9 0 1 2 4]
# 0
7. 计算欧式距离
>>> a = np.array([1, 2])
>>> b = np.array([7, 8])
>>> np.linalg.norm(b-a)
# 8.48528137423857
8. 矩阵求逆
>>> matrix = np.array([[1., 2.], [3., 4.]])
>>> np.linalg.inv(matrix)
# array([[-2. , 1. ],
[ 1.5, -0.5]])
9. 计算相关系数
>>> Z = np.array([
[1, 2, 1, 9, 10, 3, 2, 6, 7], # 特征 A
[2, 1, 8, 3, 7, 5, 10, 7, 2], # 特征 B
[2, 1, 1, 8, 9, 4, 3, 5, 7]]) # 特征 C
>>> np.corrcoef(Z)
# array([[ 1. , -0.06, 0.97],
[-0.06, 1. , -0.01],
[ 0.97, -0.01, 1. ]])
10. 计算矩阵特征值与特征向量
>>> M = np.matrix([[1,2,3], [4,5,6], [7,8,9]])
>>> w, v = np.linalg.eig(M)
# w 对应特征值,v 对应特征向量
>>> w, v
# (array([ 1.61e+01, -1.12e+00, -1.30e-15]), matrix([[-0.23, -0.79, 0.41],
[-0.53, -0.09, -0.82],
[-0.82, 0.61, 0.41]]))
11. 按行或列连接数组
>>> M1 = np.array([1, 2, 3])
>>> M2 = np.array([4, 5, 6])
>>> np.r_[M1, M2] #按行连接
# array([1, 2, 3, 4, 5, 6])
>>> np.c_[M1, M2] #按列连接
# array([[1, 4],
[2, 5],
[3, 6]])
numpy 给机器学习带来了极大的便利,其中的巧妙和实用操作不可能一一列出,笔者列出了几个有代表性的 numpy 函数和一些实用计算方法,在实际使用中若对函数意义以及函数参数有疑问,可直接查阅 numpy 函数文档,使用 help 命令即可:
>>> help(np.linspace) # 查阅 linspace 函数的相关用法