【转】作者:fangjian1204
来源:CSDN
原文:https://blog.csdn.net/fangjian1204/article/details/53055219
numpy是针对矩阵或者多为数组进行运算的,而在多维数组中,对数据的操作有太多的可能,我们先来看一个例子。比如我们有一个shape=[4,3]的二维数组:
import numpy as np
data = np.array([
[1,2,1],
[0,3,1],
[2,1,4],
[1,3,1]])
每行代表一个数据的三个特征,每列分别代表不同样本的特征,如果现在要对每个样本的三个特征求和应该如何处理?只需:
>>> np.sum(data, axis=1)
array([4, 4, 7, 5])
若要求每种特征的最小值该如何处理?只需:
>>> np.min(data, axis=0)
array([0, 1, 1])
若要求所有样本所有特征的平均值呢?只需:
>>> np.average(data)
1.6666666666666667
由此可以看出,通过不同的axis,numpy会沿着不同的方向进行操作:如果不设置,那么对所有的元素操作;如果axis=0,则沿着纵轴进行操作;axis=1,则沿着横轴进行操作。但这只是简单的二位数组,如果是多维的呢?可以总结为一句话:设axis=i,则numpy沿着第i个下标变化的方向进行操作。例如刚刚的例子,可以将表示为:data =[[a00, a01],[a10,a11]],所以axis=0时,沿着第0个下标变化的方向进行操作,也就是a00->a10, a01->a11,也就是纵坐标的方向,axis=1时也类似。下面我们举一个四维的求sum的例子来验证一下:
>>> data = np.random.randint(0, 5, [4,3,2,3])
>>> data
array([[[[4, 1, 0],
[4, 3, 0]],
[[1, 2, 4],
[2, 2, 3]],
[[4, 3, 3],
[4, 2, 3]]],
[[[4, 0, 1],
[1, 1, 1]],
[[0, 1, 0],
[0, 4, 1]],
[[1, 3, 0],
[0, 3, 0]]],
[[[3, 3, 4],
[0, 1, 0]],
[[1, 2, 3],
[4, 0, 4]],
[[1, 4, 1],
[1, 3, 2]]],
[[[0, 1, 1],
[2, 4, 3]],
[[4, 1, 4],
[1, 4, 1]],
[[0, 1, 0],
[2, 4, 3]]]])
当axis=0时,numpy验证第0维的方向来求和,也就是第一个元素值=a0000+a1000+a2000+a3000=11,第二个元素=a0001+a1001+a2001+a3001=5,同理可得最后的结果如下:
>>> data.sum(axis=0)
array([[[11, 5, 6],
[ 7, 9, 4]],
[[ 6, 6, 11],
[ 7, 10, 9]],
[[ 6, 11, 4],
[ 7, 12, 8]]])
当axis=3时,numpy验证第3维的方向来求和,也就是第一个元素值=a0000+a0001+a0002=5,第二个元素=a0010+a0011+a0012=7,同理可得最后的结果如下:
>>> data.sum(axis=3)
array([[[ 5, 7],
[ 7, 7],
[10, 9]],
[[ 5, 3],
[ 1, 5],
[ 4, 3]],
[[10, 1],
[ 6, 8],
[ 6, 6]],
[[ 2, 9],
[ 9, 6],
[ 1, 9]]])