频数分布图_特征标准化后的频数分布

最新推荐文章于 2022-05-18 00:45:18 发布

mstyoda

最新推荐文章于 2022-05-18 00:45:18 发布

阅读量1.1k

点赞数

文章标签：频数分布图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35330796/article/details/112693220

版权

深度学习依赖历史特征数据。特征数据的质量通过频数分布图直观表现。

特征数据一般不能够直接进入神经网络，需要事前标准化处理。
标准化后的特征数据，虽然可以进入训练网络了，但是，如果数据太脏，会导致网络学习过程拉长、结构庞大、甚至崩溃。故需要在标准化化前，进行数据清洗。
数据清洗分为空间比较清洗、时间比较清洗。
空间比较清洗，使用knn，将梯度值很大的异常数据给清洗掉；
时间比较清洗，根据平稳时间序列思路，将相邻时间变化异常的数据给平滑掉。清洗前后的频数分布图，可以直观体验清洗前后的效果。
频数分布图，也对深度学习网络的clamp(min,max)层，提供剪裁依据。看看下边的图形就知道了。
仅仅空间、时间清洗是不够的，还需要同化分析。要素间的同化作用，可以弥补时间、空间残缺信息。让要素集合更加整齐。看看下边同化后的频数图，更光滑了。

import matplotlib.pyplot as plt

import netCDF4

import numpy as np

url="http://hxfcalf:8080/thredds/dodsC/data/calf/ft_std/2019/20191001/201910012300.nc"

f = netCDF4.Dataset(url)

sf_var = f.variables['sf']

sf = sf_var[:]

np_sf = np.array(sf).flat

plt.hist(np_sf, bins=500)

histg,bins = np.histogram(np_sf,bins=500)

plt.plot(.5 * (bins[1:] + bins[:-1]),histg)

plt.show()

表明经过10分钟时间降噪处理后，所有特征都集中在[-5,5]区间，其中-4.6 是无降水。发现数据干净了许多(没有毛刺)。

上图为未经过降噪清洗的分布。

时间序列降噪处理前的频数图，由很多毛刺。意味着后续深度学习负担加重。

上图为标准化后的特征二维数据图

看看202005010000z

也是比较好的哈（没有毛刺），请问读者，你知道clamp(min,max)中,min=?,max=?

进一步，经过降水，气压，气温，风，能见度，湿度同化处理后：

数据打磨得更好看了！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
频数分布图_特征标准化后的频数分布

深度学习依赖历史特征数据。特征数据的质量通过频数分布图直观表现。特征数据一般不能够直接进入神经网络，需要事前标准化处理。标准化后的特征数据，虽然可以进入训练网络了，但是，如果数据太脏，会导致网络学习过程拉长、结构庞大、甚至崩溃。故需要在标准化化前，进行数据清洗。数据清洗分为空间比较清洗、时间比较清洗。空间比较清洗，使用knn，将梯度值很大的异常数据给清洗掉；时间比较清洗，根据平稳时间序列思路，将相...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。