如何用机器学习进行天气预报?

理论上来说是可以的。


实际操作中,由于天气系统是一个全球性的体系,会有很多挑战。比如说数据的搜集和处理、数据传输交互、超大变量的综合考虑。


这几天天气热,正好关注到相关的话题,把整理出来的资料做一些分享。


每天搜集3TB数据用于天气预报


气象观测数据是开展各项气象业务的基础。上世纪90年代及之前,中国气象资料大部分局限于地面及高空观测。当时,2000多个地面站以小时为单位收集气象信息;120多个高空站每天观测最多不超过4次。从数据量上看不算太多,即便考虑到卫星和雷达资料,其总体日增量也局限在GB量级。


目前,全国共有2000多个地面站、120多个高空探测站、6颗在轨卫星、5万多个自动监测站、600多个农业监测站、300多个雷达站等,逐日逐小时甚至到逐分钟扫描着中国出现的各种各样的大气数据。


据中国气象局2015年公布的消息,气象部门需要永久保存的数据目前约有4PB~5PB,年增量约1PB。每年的气象数据已接近PB量级(1000GB=1TB,1000TB=1PB,约合每天3TB)。这也呈现出大数据规律的体现,观测信息量越大,所蕴藏的真实信息越多,就更能做好预报。


*气象卫星示意图


不可避免的信息延迟影响预测的及时性


一般来说,地面、高空、雷达观测数据的采集和传输过程较快,从数据采集到可视化向预报员展示,通常几分钟时间就可以完成。相对而言,静止气象卫星观测的时间稍长,中国的风云卫星一般需要20多分钟才能完成全球扫描,大概半小时后,预报员才能在电脑上看到卫星云图。


由气象观测站观测到的数据信息会首先在各省的气象台进行汇总,然后通过“质量控制”的环节,去掉或订正某些由于观测设备故障造成的错误数据,质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后,各省就利用FTP文件传输的方式,将该省该时刻全部观测站点全部物理量数据打包为一个大文件,上传到位于北京的国家气象信息中心的通信台。


世界其他国家的观测数据的采集和传输也基本大同小异。除此以外,国与国之间也要进行实况数据的交换,而且必须是无偿交换。


*中山国家气象观测站


除了实况数据之外,天气预报中还需要用到一种模拟数据。模式数据可以说更简单也可以说更复杂。简单的是,这类数据仅由各类计算机的程序运算生成,属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大,运用到的计算公式也异常复杂,为了更真实地模拟全球大气的走向,运算出的数据量十分惊人的,对应的传输交流速度也最慢。以上午08时起报的欧洲中心模式系统为例,首先计算未来3小时(上午11时)的所有物理量,打包为1个GRIB文件并向其他国家传输,然后再计算未来6小时的数据,打包传输,直到最后完成10天后上午08时的预报数据计算并传输,每个预报时效的GRIB文件大概100多兆,计算一个预报时效大概需要几分钟时间,模式系统启动也需要很长时间,这样北京收到欧洲中心在早08时起报的第1个GRIB文件大概要到下午1时45分,完成最后一个240小时预报时效GRIB文件的接收要到下午3时。


这样,如果要做早08时到下午3时的天气预报,只能使用前1个起报时刻的模式数据,比如前一天晚20时的模式数据。*GRIB 码是与计算机无关的压缩的二进制编码,主要用来表示数值天气预报的产品资料。


*中国天河二号,世界上运行速度最快的超级计算机之一,能够快速计算、处理天气预报的相关数据


基于上万个变量的发展趋势预测全球影响天气的成千上万个变量时刻都在不停地变化,而传统的模型没有办法将所有的因素考虑在内。


因此,传统模型总需要一些基本的假设,一旦这些假设的初始条件有误,那么整个分析预测也会谬之千里。以EarthRisk为代表的一些新兴技术公司已经尝试开始利用大数据对未来天气情况作出预报。EarthRisk采用的预测模型项源自加州大学斯克利普斯海洋研究所,该模型不同于以往的数值预报模式,可基于 820 亿次计算以及 60 年的气象历史数据来识别天气模式,然后将这些模式与当前的气候条件进行比较,再运用预测性分析进行天气预测,其预测时间更长、预测准度更高,最长可提前 40 天生成冷热天气概率,远远超过传统主观观测模型一星期左右的准度。


*气象要素追踪的可视化效果图


从天气预报看大数据未来的发展挑战


天气预报作为最常见、和日常生活联系最紧密、最具有代表性的全球化大数据应用,它所面临的挑战也极有可能是大数据未来发展将面对的瓶颈。小智在这里进行一下大胆的总结:


1、 数据源。数据量、信息量越大,所蕴藏的真实信息越多,就更能做好对应的应用。


2、 数据存储和计算能力。已有不少项目需要完成日均TB级别的数据计算、存储任务(以全球最大的社交网络Facebook为例,早在2012年,每天需要处理的数据量就达到500TB),未来随着VR等新兴应用的不断涌现,数据量还将呈现指数级增长。


3、 信息时延。据华为最新资料透露,目前大流量信息面对的时延主要来自四个方面。第一,光速限制。光的理论速度每秒30万公里,实际在光纤中的速度是每秒20万公里,从中国传到美国也需要50毫秒。第二,物理时延。现在的传输方式是IP转发,就会产生线路时延,电容也是会产生时延的。第三,网络时延。网络时延的根本原因是因为拥塞造成的,拥塞又不可能完全避免。当全世界普及VR等应用的时候,拥塞就更厉害,而且拥塞还具有随机性。第四,存储带来的时延。(小智再额外补充一个:计算带来的时延。如果数据传送前需要进行初步的分析处理,就需要面临数据计算带来的时延)


4、 人工智能。在天气预测中,影响天气变化的因素成千上万个,而且每一个变量都在时刻不停的变化。人工智能需要对他们进行全面的考虑,才有可能进一步地提高准确率。涉及到的变量越多,对人工智能的要求就越高。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值