让科学大数据流动起来

  现代科研活动等各个领域都已经推到了一个前所未有的大数据时代,量变引起质变,不断增加的数据引发了人们的思维和行为方式的变革。信息化推动全球各行各业发生颠覆性的改变,在当前,科研信息化工作主要体现为对科研大数据的整合与利用。可以说数据已成为新型战略资源,是驱动创新的重要因素。一个国家的科学研究水平,已越来越多地取决于其数据优势,及将数据转化为信息和知识的能力。


  然而,伴随海量科研数据的膨胀,国内与之不相匹配的是数据的保守与应用壁垒,中国工程院孙九林院士、郭华东院士等为此在各类场合呼吁“大数据共享”,希望科研机构突破大数据应用上的诸多保守机制。


  业内人士指出,无论是在科研数据的共享政策与机制,还是在对大数据的管理、分析、可视化及应用的技术方面,目前都面临着一系列的问题和挑战。因此,科研信息化建设亟需加强顶层设计,面向用户和实际应用,统筹协调,培养起一支强有力的专业信息化人才队伍,同时,促进数据获取和共享的标准规范,推动科研大数据真正流动起来。


  计算能力需面向用户


  2013年底全球超级计算机500强的榜单上,天河二号蝉联冠军,中国占有65席,其中多数在高校。中国的超算能力正在向百亿亿次进军。但面临的问题却不容忽视,业内人士指出,如果五年内机器使用率不高,或者效能得不到发挥,巨资投入的超算计算机将血本无归。而“用做什么”一直是这些超算能力萦绕不去的困扰。与此同时,超算能力的过于集中,造成科研领域闲置与稀缺的两种极端情况存在。


  国内建立了各级高性能计算中心,而这些能力的输送并不均衡。中国海洋大学的“海洋信息探测与处理”学科研究,常常需要大数据计算,但是,学校30亿次的计算能力无法满足其需求,因此,每次都让学生用硬盘拷贝几十T 的数据,送到北京的超算中心来进行数据挖掘和分析。


  在兰州大学,这个情况尤其突出,兰州大学大气物理所的田文寿所长有同样的感受:“国家不停地建设大型计算设施,在面向用户方面做得不够。”兰州大学也建设了计算中心,但因经费不够,无法扩容,已经停止使用。


  调查中发现,在2013年底针对全国30所985/211 高校的“科研信息化”调研中,问及“是否有适当的软硬件(网络、软件、硬件)支撑科研活动中的计算需求”时,有25所学校回答“有”,而有5 所学校回答“无”;而在问及计算能力是否足够时,有18 所学校认为“足够”,另外12 所学校认为“不够”。究其原因,说明在高校中,计算能力的共享尚有欠缺,信息化专业人才缺失,在共享粒度上应有更细致的统筹安排。



  美国乔治亚理工学院的胡泳涛博士十年来一直从事大气模拟实验研究,他每天都要跟大量的数据打交道,气象、气候和环境类的研究需要高性能计算机或超级矩阵计算系统,他认为美国高校科研建立的细粒度的共享机制值得国内借鉴。“现在计算机硬件的发展很快,一般好一些的服务器应该能够满足大多数的研究需要。计算能力是与人相关的,不仅机器到位,专业的人员也需要配备到位。”他说。


  在乔治亚理工学院,每个系都有一个计算机维护小组,全职的大概2~3 个人,为系内的研究小组自行购买的设备提供软硬件服务。当然,要是遇到大的环境模拟时,也需要用到大计算能力的服务,而这些计算能力的获取相对简单,乔治亚理工学院有自己的计算中心——PACE,本身具有学校级别的硬件投入,同时加上各个系单个研究小组的资金加入,可以形成超级计算能力。据胡博士介绍,PACE 由10 人左右的专职具有计算机学位的人维护和管理。


  再往上一级,在全国范围内,美国也有类似PACE的超级计算中心,例如由20-30个大学以及美国自然科学基金会NSF 出资共同维护的UCAR(大气研究大学集团),UCAR 拥有77 个大学联合成员,它运用从进行气候和天气模拟的高端计算机到装有密密麻麻仪器的飞行器,研究涉及大气及与之相关的地球科学。UCAR 同时管理着美国国家大气研究中心NCAR。“每一个UCAR 成员单位的学生或研究人员,可以得到免费机时服务的。”胡泳涛说。


  这种层层递进,又互相补位的计算能力,使得科研工作者随时可以根据自己的需求,确定采用什么样的计算能力。反观国内,这种机制还有欠缺。在国内,没有网络维护专职人员。多数受调研的学校也一致提出类似的问题,计算能力的不均衡,其背后的原因更重要的是专业信息化人才的缺失。


  国家高性能计算CNGRID 的首席科学家钱德沛教授也看到了这一现状,他提到高性能计算应该以服务业的形式来体现,方能盘活我国目前的计算能力。“未来,中国国家网格服务环境CNGRID 将成为IaaS 和PaaS,在应用社区和网格服务环境之间建立起商业模式,目的是要促进高性能计算服务业。”他说。


  呼吁数据开放共享


  我国各大科研院校机构中,散落着海量的科研数据。在调研中,当问及“学科数据库是否为社会提供服务”时,30 所211 高校中仅有8 所学校提供了服务,多数学校未能提供服务。原因主要归结为项目管理不规范、信息技术支持人员缺乏、数据标准不一、提供服务有障碍,等。


  华南理工大学陆以勤教授认为:“国家的科研项目管理过程存在问题,国家大项目召开的国际会议也不对公众开放,在实际科研中,都是从国外获取资料,国外的科研项目过程资料都很集中和规范,而国内项目材料要么不公开,要么零散,几乎没留下什么东西。”


  当下,大学利用数字文献已经成为一种习惯,复旦大学有一组对比数据充分说明这一点,2005 年,复旦大学购买文献资料的经费中,纸版文献为2053 万元,电子文献资料为505 万元,纸版与电子的投入比例为4:1;2010 年,这一比例上升为2:1,即纸版文献为2100 万元,电子文献资料为1097 万元。去年,这一比例则达到了1:1。


  而与加大投入形成鲜明对比的是,文献、信息数据共享壁垒重重。


  中国海洋大学的钱教授提到:“我们遇到的挑战是,在国内获取数据比从国外还要困难。”在海洋大学,内部对科研数据共享有一个期限,一两年之内(课题组有优先使用权),原则上通过学校数据中心,普通教师可以获取。(除非是保密数据,需要有一定的审查。)然而,由于机制所限,中国海洋大学的科研数据原则上不提供对外服务。“不共享,我们是无法获取到他人的数据的,这也是导致我们现在缺少基础科学数据库的最大原因。”钱教授说。


  而与此形成鲜明对比的是,美国国家海洋气象局(简称NOAA)的气象数据,中国海洋大学基本上延迟三个小时就能获取。美国国家海洋数据中心(简称NODC)汇集了全球最大的并可公开查询的海洋数据,其数据的使用基本面向科研工作者免费开放,无论是对提供者,还是对使用者。


  为此,华南理工大学陆以勤教授建议,应建立统一的科研项目管理系统,以利于数据共享及各类数据库的建立。“目前各类型项目要求都不同,各自建设,重复建设而且使用复杂。从国家层面上,项目管理系统应该是统一的,项目管理系统应具备开放性、系统性和全面性,把上级部门、管理人员和科研人员很好地结合起来。”他说。


转载于:https://my.oschina.net/u/1160813/blog/223181

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值