python中的NaN在质量控制中怎么处理?

一、数据中的缺省值

气象数据中经常存在缺省值,比如未入库的站点数据、比如海温格点实况数据中的陆地区域。这些缺省值往往被赋予NaN(Not a Number,非数)。NaN是计算机科学中数值数据类型的一类值,表示未定义或不可表示的值。
这些NaN值一般需要在计算时被去除掉,以免影响计算结果。那么,该怎么去除呢?

二、NaN的定义和特点

(一)如何设置nan

这里介绍两种方法设置一个变量为nan。

a = float('nan')
import numpy as np
a = np.nan

(二)如何判断一个数是nan

和设置nan的方式对应,也可以用np和math两种库函数来判断一个变量是否为nan。

import numpy
a = np.nan
if np.isnan(a):
    print('这是个NaN!')
import math
a = math.nan
if math.isnan(a):
    print('这是个NaN!')

需要说明一下,直接用==来判断是不行的。
在这里插入图片描述

(三)NaN的特点

NaN因为是Not a Number,所以它和所有数字变量(包括整数和浮点数,不论大小和正负)的所有判断(包括大于、小于和等于)都会返回false。
在这里插入图片描述
它和所有数字变量(包括整数和浮点数,不论大小和正负)的所有运算都会返回nan。
在这里插入图片描述

三、处理数据中的NaN

我这里把常用气象数据分为站点数据(一般存为dataframe格式)和格点数据(一般存为array、dataarrray或dataset格式)。
先编一个站点数据,设置一个数值为NaN。

import pandas as pd
import numpy as np
import datetime
df = pd.DataFrame({'台站名称':['59948']*5,'气温':[round(i,1)+25 for i in np.random.normal(0, 1, [5]).tolist()]})
df['时间'] = pd.date_range("2022-02-13 11", periods=5, freq='m')
df.loc[0,'气温'] = np.nan

在这里插入图片描述
再编一个格点数据存为array,设置一个数值为NaN。

data = np.random.rand(3, 3)
data[1,1] = np.nan 

在这里插入图片描述
在array的基础上构造dataarray。

#构造DataArray
import numpy as np
import xarray as xr
lat = [31,32,33]
lon = [121,123,125]
da = xr.DataArray(data, coords=[lat, lon], dims=["lat", "lon"])
da.name = 'data'
print(da)

在这里插入图片描述
在dataarrray的基础上构造dataset。

ds = da.to_dataset(name = 'data')

在这里插入图片描述

(一)利用nan的特性在质控中直接去除

如果是想从数据中直接去除nan。那么,我们可以利用nan的“和所有数字变量(包括整数和浮点数,不论大小和正负)的所有判断(包括大于、小于和等于)都会返回false。”的特点,把去除nan这个步骤放在质量控制中常用的范围筛选中,直接筛除掉。
对dataframe格式:

df = df[df['气温']<50]

在这里插入图片描述
对array格式:

data[np.where(data<50)]

在这里插入图片描述
可以看到虽然nan值被去除掉了,但是3*3的array的形状已经变了(对于气象格点数据,二维的数据的每个点都自带经度和纬度,所以形状很重要,形状变了理解起来都困难了)。如果后续要做矩阵运算什么的,就不咋方便了。前面也说过,nan和数字之间的任何运算都返回nan,所以,大部分时候矩阵做加减乘除等运算,正常的点返回正常的计算值,nan返回nan,互不影响。不去除nan也不错。

对dataarray和dataset:
不能删除nan,只能替换nan。

xr.where(da <50,da,0)

在这里插入图片描述
嗯,这样替代还不如不代呢。
对dataset甚至还有筛选条件后设置为nan的代码:

ds.where(ds.data < 50, drop=True)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值