目录
numpy.ma子模块通过引入掩码数组提供了一种解决数据缺失或无效问题的安全、便捷的方法。numpy.ma子模块的主体是MaskedArray类,它是numpy.ndarray的派生类,可以把numpy.ma子模块当作ndarray来用,且无须考虑数组的无效值是否会给操作带来无法预知的意外。
一、 创建掩码数组
import numpy as np
m = np.ma.array([0, 1, 2, 3])
print(m)
1.1 列表生成掩码数组
掩码数组子模块的ma.array() 函数和NumPy的np.array()函数类似,可以直接将列表生成掩码数组,默认mask参数为False,生成的数组类型是MaskedArray类。数组掩码处理后,无论是查找最大值、最小值,还是计算均值、方差,都不用再担心数据是否无效的问题了。
import numpy as np
m = np.ma.arange(10)
mask = [0 for i in range(10)]
m = np.ma.array(m,mask=mask)
print(m)
mask[1:5] = [1,1,1,1] #指定1到5无效
m = np.ma.array(m,mask=mask)
print(m)
结果:
[0 1 2 3 4 5 6 7 8 9]
[0 -- -- -- -- 5 6 7 8 9]
1.2 由数组生产掩码数组
ma.asarray() 函数可以将普通的 NumPy 数组转成掩码数组。新生成的掩码数组不会对原数组中的 np.nan 或 np.inf 做掩码处理,但是会相应调整填充值(fill_value)。
a = np.arange(5)
print(np.ma.asarray(a))
a = np.array([1, np.nan, 2, np.inf, 3]) # 包含特殊值的数组
print(np.ma.asarray(a))
1.3 对数组中的特殊值做掩码处理
ma.asarray() 函数不会对原数组中的 np.nan 或 np.inf 做掩码处理,ma.masked_invalid() 函数则可以实现这个功能。
a = np.array([1, np.nan, 2, np.inf, 3]) # 包含特殊值的数组
print(np.ma.masked_invalid(a))
1.4 对数组中的的某个确定值做掩码处理
有时需要将数组中的某个给定值设置为无效(掩码),ma.masked_equal() 函数可以实现这个功能。
m = np.arange(5).repeat(3)
print(np.ma.masked_equal(m,3))
1.5 给数组中满足某个条件的值做掩码处理
有时需要将数组中符合条件的某些特定值设置为无效(掩码),掩码数组子模块提供了若干函数实现条件掩码。这些可能的筛选条件包括大于、大于等于、小于、小于等于、区间内、区间外等 6 种。
示例:
m = np.arange(10).repeat(3)
print(np.ma.masked_greater(m,5)) #掩码大于5的元素
print(np.ma.masked_greater_equal(m,5)) #掩码大于等于5的元素
print(np.ma.masked_less(m,5)) #掩码小于5的元素
print(np.ma.masked_less_equal(m,5)) #掩码小于等于5的元素
print(np.ma.masked_inside(m,4,6)) #掩码在[4,5]之间的元素
print(np.ma.masked_outside(m,4,6)) #掩码在[4,6]之外的元素
1.6 用一个数组的筛选结果对另一个数组进行掩码处理
a 和 b 是两个结构相同的数组,如果用 a>5 的条件对数组 b 掩码,上面那些函数就失效了。这种情况正是 ma.masked_where() 函数可以大显身手的时候。当然,该函数也可以对数组自身掩码。
a = np.arange(8)
print(a)
b = np.random.random(8)
print(b)
print(np.ma.masked_where(a>5, b)) # 用a>5的条件掩码数组b
结果:
[0 1 2 3 4 5 6 7]
[0.78523106 0.86561868 0.31776667 0.9725608 0.44171764 0.5522423
0.12392154 0.80691097]
[0.7852310636212392 0.8656186784921848 0.3177666685735746
0.9725607999251317 0.44171764470476294 0.5522422981444314 -- --]
二、 访问掩码数组
2.1 索引和切片
因为掩码数组 MaskedArray 类是 numpy.ndarray 的派生类,所以那些用在普通 NumPy 数组上的索引和切片操作也依然有效。
a = np.array([1, np.nan, 2, np.inf, 3])
a = np.ma.masked_invalid(a)
print(a[0], a[1], a[-1])
print(a[1:-1])
2.2 函数应用
掩码数组内置方法的使用和普通数组没有区别,比如最大值、最小值、均值和方差的使用。使用 NumPy 命名空间的函数则要慎重,如果掩码数组子模块有对应函数,应优先使用掩码数组子模块的对应函数。例如,对掩码数组求正弦,如果使用 np.sin() 函数,会发出警告信息;如果使用 ma.sin() 函数,则无任何问题。
a = np.array([1, np.nan, 2, np.inf, 3])
a = np.ma.masked_invalid(a)
print(a.min(), a.max(), a.mean(), a.var())
print(np.ma.sin(a)) # np.sin(a)可以执行,但会弹出警告。ma.sin(a)才是正确的用法
2.3 掩码数组的数据视图和副本
任何情况下,我们都可以通过掩码数组的 data 属性来获得掩码数组的数据视图,其类型就是 np.ndarray 数组。另外,还可以使用掩码数组的 array() 函数或 ma.getdata() 函数来获取掩码数组的数据视图。上述三种方法获得数据视图的操作,本质上都是操作掩码数组本身。如果需要数据视图副本,需使用 copy() 函数。
a = np.ma.array([1, np.nan, 2, np.inf, 3])
print(a)
x = a.data
y = a.__array__()
z = np.ma.getdata(a)
w = np.copy(a.__array__()) # 复制数据视图
print(x)
print(y)
print(z)
print(w)
a[-1] = 9
print(x)
print(y)
print(z)
print(w)
2.4 修改掩码数组
通过掩码数组的 mask 属性可以查看当前数组的掩码情况。通常,数组的掩码是一个布尔型数组,或是一个布尔值。
a = np.ma.masked_invalid(np.array([1, np.nan, 2, np.inf, 3]))
print(a.mask) #False表示没有掩码处理,True表示进行了掩码处理
如果要对数组切片掩码或对数组的某个元素掩码,直接令该切片或该元素等于 ma.masked常量即可:
a[:2] = np.ma.masked
print(a.mask)
如果要撤销对数组切片或数组中的某个元素的掩码,只需要对该切片或该元素做赋值操作即可: