关闭

探寻“大数据驱动创新”的路径

1070人阅读 评论(0) 收藏 举报
分类:

探寻“大数据驱动创新”的路径

■主持人的话 错失机遇,就会落后

  这一年来,全球热议大数据,大家都已经感受到了大数据带来的冲击。目前,大数据已经在社会管理、社会服务、公共安全等各方面改变着我们。

  对上海来讲,我们已经感受到大数据对这座城市发展带来的冲击和影响。如果不抓住由大数据带来的变革机遇,上海很可能就会落后于这一轮发展的潮流。为此,我们综合了各方面的意见,确定今年院士圆桌会议的主题就是“大数据驱动的创新”,希望能够通过今天的会议进一步认识大数据驱动创新的途径,分析我们的科技社会管理层面的问题,从而推动经济、科技和社会的发展。

  ——上海市科协主席、上海中医药大学校长、中科院院士陈凯先

  

与会“两院”院士名单

  柴天佑——国家冶金自动化工程技术中心主任,工程院院士,控制理论和控制工程专家

  陈国良——深圳大学计算机与软件学院院长,中科院院士,计算机软件专家

  褚君浩——中科院上海技术物理研究所研究员,中科院院士、半导体物理和器件专家

  郭重庆——同济大学教授,工程院院士,机械制造工艺与设备、设施规划与设计及产业发展战略专家

  何积丰——华东师范大学软件学院院长,中科院院士,计算机软件专家

  江东亮——中科院上海硅酸盐研究所研究员,工程院院士,无机陶瓷材料专家

  陆汝钤——中科院数学与系统科学研究院研究员,中科院院士,人工智能、知识工程和基于知识的软件工程专家

  汪品先——同济大学教授,中科院院士,海洋地质学和古气候学专家

  赵国屏——国家人类基因组南方中心执行主任,中科院院士,分子微生物学专家

  

海量数据 亟待挖掘

  □赵国屏

  上世纪末,人类基因组研究引发了生命科学数据的高通量产出和积累,增速超乎想象,DNA数据积累已打破了摩尔定律。举例来说,一个人的基因组序列是30亿个核苷酸,若加上肠道菌群的数据就是100倍以上的量。但这仅仅是基本的蓝图。实际上,从怀孕、胚胎发育,一直到出生、成长、成熟乃至老来病死一辈子,这个蓝图的表达一直在变化,是涵盖了基因、转录本、蛋白质等等的变化,也涵盖了这些遗传相关信息与环境信息的相互作用。所有这些,都有数据提供,可想而知其量度和复杂度达到了什么程度。

  现代生命科学信息已具备大数据公认的4V特征,同时,大数据彻底颠覆了传统生命科学以假说指导实验和以模式生物为研究主体的科学发现模式,使生命科学研究开始进入“数据密集型”的科学发现第四范式时代。

  现在生命科学数据的利用率非常低。再以人的基因组数据为例,只有1%到10%的数据信息现在能看懂,剩下90%以上我们知之甚少。从这样海量的、高速增长的数据中把真正有用的知识挖掘出来,是第四范式研究时代生命科学面临的重大挑战。

  没有共享,就没有大数据的优越性,也无法解决个体数据和统计规律的问题。但现在,共享的困难多到让人望而生畏;若不解决,奢谈大数据,不啻叶公好龙。我接触的欧洲和美国同行,他们都不理解为什么在中国,每个病人、每次收样本都要签知情同意书。在美国,病人签一份知情同意书,各种样本就都可以拿来做科研;欧洲人、特别是北欧人,往往将自己的样本能被用于科研视为荣耀,觉得是对社会作贡献。作为东方古国,中国公民也应在数据共享和共同利用方面体现文明水平。

  

材料创制 需要支持

  □江东亮

  我是搞材料的,材料科学发展现在也提到了材料基因系统。材料数据也是海量的,尤其这几年中国材料科学发展非常快,在国际上发表的论文数恐怕很快要跃居世界第一。我们有大量的材料科学数据,我感兴趣的是如何加以利用。

  现在,国家和地方都在考虑建立材料科学数据库,国家已在规划。但问题是,数据库建立之后该怎么用,怎么提炼出有用的数据和信息?比如,要做航天复合材料,在超高温、辐照、高速冲刷等方面,都有很具体的要求,选择材料就希望借助大数据的支持。

  同时,从实验科学来讲,现在正在发展一些可以大幅度提高实验效率的高通量实验。高通量实验带来的数据也是海量的,比如用一个128位或256位的芯片,每个位子上设定一个或多个组份,这个组份或多组份的电学、热学、化学性能,就会形成一大堆数据(当然目前检测技术还有待发展),这就有一个选择利用的问题。所以,数据的处理、提升,都是要面对的课题。

  我们还碰到这样的问题——很多实验产生了一大堆数据,有些很粗糙,数据的可信度如何判定?因为有些数据不可重复,但却客观存在,你怎么判断?如果有基于材料研究的大量数据分析软件,创制新材料就有很多可预测的地方,这对整个材料科学发展会有很大益处。

  

大数据发展,需破四大瓶颈

  □郭重庆

  得益于计算机强大的存储、检索、互联能力,人类近几年积累的数据几乎等于过去所拥有数据的总和,这在几年前是不可思议的。在大数据之下,人、计算机、物的三元大融合真正成为现实。尽管大数据带来许多机遇,但其本身发展也面临不少瓶颈。

  瓶颈之一是人们缺乏一种从爆发的海量信息中获取有用资源的能力。现在,数据是富有的,但解决方案是贫乏的。现实是利用不够,没有把数据转化成思想或知识。

  瓶颈之二是各自为政的研究格局。大数据的创新一定仰仗于一个协同的创新生态系统,个人化、部门化的研究方式不符合大数据的规律。我认为大数据研究的流程应该是需求牵引、问题导向、案例推理、系统分析,需要多学科、多部门的协同。

  瓶颈之三,大数据的产业链能否商业化是成败的关键。现在数据的拥有者基本上是政府或一些大企业,但大数据的创新抓手或者商业模式推手应该是企业家,没有企业的参与,大数据就会重蹈当年网格计算的覆辙。网格计算没能推开的一个重要原因就是没有商业化的带动。

  瓶颈之四,需要破解数据开放的困境。作为最多数据拥有者,政府的数据能不能开放?我相信,政府数据的开放将使中国的公共管理水平提高到不可估量的程度。

  最后想谈大数据创新对上海的意义。一个城市的盛衰有周期性,旧的比较优势在消失,新的比较优势建立有一个过程。上海就处在这么一个周期性的下降通道,新的增长点在哪里,现在看起来还找不到感觉。我觉得上海从来不缺创新资源和人才,缺的就是韩正同志说的勇气和担当,缺的是创新的激情冲动。互联网产业上海错过了多次机会。中央对上海的期待是在中国经济短腿的服务经济上有所作为,希望上海在克服中国经济短腿上走出一条路。

  

要靠市场而非研究推动

  □何积丰

  第一点我想讲的是,大数据不是美国的发明。我们国家在1998年发展智能交通时,科技部立了几个大项目,从应用出发,用了海量数据系统。这件事说明我们比美国人早了七八年,应用方面也有了很好的结果。

  第二,大数据的发展要靠市场、而不是基础研究来推动。去年,我有机会参加工信部对上海软件产业的调查,发现不少民营企业都在做数据处理的工作,在金融方面,上海已经有很多小公司,都在应用大数据做服务,产生了很好的GDP。这证明上海存在做大数据服务业的基础。

  第三,大数据能做什么?我们希望做的,是将很低价值的大数据经过处理,变成高价值的大数据。举个例子,有一家在松江专门做大数据处理的公司,主要承担松江区政府所有的公务处理,加上松江大学城的一些数据处理。闵行区也有类似机构,为区政府决策提供数据。闵行区的人口现在达到250万,区政府希望每天早晨能知道这250万人的数据,比如交通动向。我建议,今后这类谈大数据的会,要请一线工作的同志来讲怎么用大数据的。

  关于上海能做什么。自贸区建立以后,有些部门担心会出现大批资金外逃。这方面,我们可以通过大数据流的监控来加以防范。

  最近,我们跟上海证券交易所在讨论一个问题:怎样从没用的大数据里面整理出有用的数据,然后进行精加工?我们过去几年积累了大量数据,一个典型的例子就是遥感图片,现在有大量卫星图片连数字化都没有做就留在那里。关于大数据的应用,有一点很重要,每个行业都要自问“我希望从大数据里挖出什么有用的东西”。单单把数据作为宝贝存起来没有任何意义。

  高等学校有一个任务,应该培养必要的大数据处理人才,作为社会的人才储备。相关人员在高校里至少要学4年,高端人才可能要学7到10年。因此我建议,有条件的单位要把培养大数据处理人才作为战略任务来抓。

  

数据的商品属性,忽视不得

  □陆汝钤

  我谈一点个人看法,第一是在大数据这么热的今天,地方政府主要该抓什么?大数据的研究和处理是整个一条链,从数据挖掘、分析、处理到应用。在这么多环节里,政府最需要关心的是应用,因为应用是整个大数据的出发点和归宿。应该通过抓应用来带动整根链条。

  第二点看法,从应用的角度,抓哪些方面的大数据为好?各行各业都有自己的大数据,很难泛泛去推进,当然要重点抓一些对国计民生有重要意义的问题首先做起来。但对上海而言,还应该首先抓与中央对上海的定位——国际金融中心和国际航运中心有关的大数据问题,这对上海有重要的意义,并且做成后对全国有重要影响。

  第三点想法是靠什么来推动大数据的应用?首先大数据是一种商品,一定不要忘了这个属性,现在一提商品就想到很多物质的东西,但是有很多非物质的东西也非常重要,同样不能忽视。要思考如何利用大数据的商品属性。譬如,大数据是如何按照商品的规律运行?这个商品怎样为我们社会增值、产生效益?

  关于信息和知识的商品化运行,我前段时间提出过一个想法,我们有很多期货交易市场,钢铁、石油、大豆,都是物质的东西,为什么不能有数据和知识的期货交易市场?当然数据作为商品可以有很多形式。我觉得第一要承认信息和数据的价值,要按照商品进行运作。第二是想方设法使它增值。譬如今天,图书馆作为重要知识中介的作用在慢慢降低,因为广大用户能直接上网获取需要的信息。但知识中介仍要有人去做,因为网上信息很分散,要想找到有用的信息,就得下工夫搜罗整理。这提醒我们,充当现代的知识服务中介为科技工作者提供有价值的工具和方法就是商机,也是大数据一个很重要的有利可图的方向。

  第四点,可以有计划地支持大数据的研究。一是建议上海有关部门每年拨出一定经费,专项支持上海感兴趣的大数据研究和分析处理工作。其次,要利用大数据和信息的市场商品化趋势。目前,一般的数据分别掌握在各个部门,名义上政府统一管,实际上是被部门私有化。这种情况下,大数据共享不太可能。如能允许和鼓励数据商品市场的行为,反而会促进大数据的使用,否则很多大数据都烂在那些部门手里。

  最后一个建议,上海应有一个协调大数据研究、利用、应用的机构,这个机构不是一个行政部门,它没有很多权力来管数据怎么处理,它只为政府出谋划策,针对如何应对大数据的问题及时提出政策建议。

  

科研观念,谁先转谁就赢

  □汪品先

  随着科技日新月异的发展,整个社会在发生着变化,我认为应该唤起民众,特别是广大科技人员尽早意识到转型的问题。现在整个研究的方式、规范、道德、战略都在变化。这一点谁能先意识到谁就赢。

  转型有两个条件,一个是客观可以做,一个是需要做。我从事的地球科学这些年来最明显的进步是由遥感带来的,那么多的信息现在遥感一下子全有了,这就提供了客观的可能性。第二个是需求,现在对海量信息的需求确实很大,首先就是全球变暖的问题,要寻找温室气体的下落,这靠一个国家没门,靠一个学科也没门,要靠地球科学的整体系统,从大气到地球内部全都得考虑,这就是需求。

  从世界范围来看,加拿大造了现在世界上最大的海底观测网,3000米水深,800公里的光电缆,在海里观测,已经三年多。其中浮游生物迁移的观测每天都产生一张图,3年下来这幅图已经变成12公里长。这么长的图谁去解释,怎么用?这就是典型的大数据问题。这个问题也是我们正面临的。我们长江口外的海底观测系统投用一年多来也产生了很多数据,等将来国家观测网建成,数据更不知道有多少。有效管理和利用这样的海量数据,对我们实现从“船上的海洋科学”向“海里的海洋科学”的转变必不可少。

  随着上海自贸区的推进,上海经济转型正在启动,在此背景下,上海科技界的转型也应大声疾呼,大步推进了!其实科技的转型不仅需要而且势在必行。眼睛只盯着SCI文章不应该是今天中国和上海科技界的主要追求。转变首先是思维和观念上的,要从小生产的小农经济思维转变成大经济、大科技的思维。现在我们不少单位可以搞国际合作,但是一个单位内却很难合作得起来,这种观念太不合时代,太保守了!

  第二个转变就是要从发展中国家的思维转向发达国家的思维。从地球科学来讲,现在世界上一类国家是原料(数据)输出国,专门输出数据,另一类国家是数据深度加工者,两者的学术地位完全不一样。现在发达国家越来越变成数据深加工的地方,而一些发展中国家以能“跻身”国际计划为荣,但角色基本上是输出数据,由少数发达国家完成深加工。原料和理论都可以写文章,中国如果仅仅以跻身国际为满足,单纯以发表文章为目标,日后的地位还是不高。你是深度加工者还是原料的输出者,这个大有差别。不是说我数据越多越好,而是我能从这些数据中挖出东西来,这才叫本事。

  因此我建议上海科技界能率先在大数据背景下实现新的转型,实施以上两个转变,否则你再投钱、再出文章都是废的。如果上海可以振臂一呼在全国带这个头,那就是上海发挥出了独特的功能。

  

“严格性科学思维”要变一变

  □陈国良

  怎么样研究大数据?我看这里正好有个变革思维的问题。我个人是做算法研究的,一直追求严格、严密,可面对大数据,我原来那一套做基础理论特别强调科学严格性研究的思维要变革一下了。

  无论是数据的获取,还是数据的分析、解释、处理,思维都要变革。比如说数据的获取不能依靠过去的随机采样,因为随机采样没有办法揭示很新的信息。面对大数据,我们不能像小数据时代那样,用最小的数据获得最多的信息;而应该要拿到与领域相关的全数据,哪怕我不需要研究全部的数据。比如说我要研究气象,不仅要关注气温、气压、湿度的变化,与大气相关的所有数据都要了解、研究,这一类数据都要弄全。这意味着在大数据研究的时代,采样的思维需要变革。

  第二,对数据的分析思维也需要调整。面对如此众多的数据,不能像过去那样热衷和强调精确性,而且大数据时代也没有办法追求精确性。所以,基于大数据背景,搞一个简单、粗略、估计的算法,比小数据的精确算法要实用得多,也就是说,分析的思路不能过于追求精确。

  我们研究科学的,对一个现象的分析总是追究“为什么”。但在大数据时代,对事物现象、机理的解释,无须紧紧盯着事物之间“为什么”的因果关系,而是要寻找事物之间“是什么”的相关关系。我觉得这也是一种分析思维的转变。

  最后说到数据的处理。大数据不是说不需要理论,没有模型可建,没有规律可循,但要接受面对的数据很纷杂、而且量很大这个现实。有人说,在大数据面前,没有一致性的模型、没有统一的理论、没有严格的定义,科学照样可以进步,学科照样可以发展,照样可以得到很好的应用。

  (本版文章取自“院士圆桌会议”的现场发言,刊发时有删节,并经发言者审定)

  

应特别注重结合智慧城市

  □褚君浩

  大数据具有综合性的、交叉学科的特点,涉及数字科学、数学、控制、计算机等不同的学科领域。这样一个学科在最近五到十年,将会对新兴技术的发展产生非常大的促进作用。

  当前对大数据的研究利用,需要关注诸如大数据形态的描述,大数据到底是什么;其次要知道大数据的基本运行规律;再次要研究大数据形态的运行规律能不能操控,怎么操控?

  我觉得大数据的研究当前要注意两方面的事。一是从数学、计算机科学技术的角度,对海量群体的多维度数据及其融合的大数据本身作进一步研究;另一方面,大数据研究要和医疗、遥感、社会管理、交通等具体物质过程结合。现在,大量的遥感数据用得上的只占百分之几,大多数都闲置着;如果能和交通、社会管理方面的需求对接,就可以找到更多用途,也能促进大数据技术的发展。

  我觉得当前大数据的应用特别要注意和智慧城市的建设相结合。智慧城市很多都是大数据问题,譬如智慧交通,如果每辆车都安装一个收发设备,驾车人能知道路况信息,什么地方堵、什么地方不堵;同时每辆车、每条道路的实时动态本身也在产生大量数据。现在提智慧医疗、智慧交通、智慧金融、智慧的水、智慧能源,这里面确实有非常多的大数据问题要解决,所以大数据研究当前一定要和智慧城市建设结合。

  

优化信息流最为关键

  □柴天佑

  为什么大家都在研究大数据?我想首先一个是大数据本身已经不是研究不研究的问题,它是个客观存在,是信息化的产物,也就是发展到今天的客观存在。

  为什么大家对大数据这么重视。以风力发电为例,过去研究风力发电更多是从工程角度研究怎样让它发出更多的电,怎样去维护,但如果把它和天气信息联系起来,经过综合运用两种不同的信息数据源,来调整风力发电机,可以发现,其可靠性和发电效率都有增加。

  大数据对相关科学技术提出的挑战,一是怎么传输大数据,二是传输以后怎么储存数据,三是怎样去计算、处理和利用这些数据。为什么产业界关心这件事?因为现在遇到的问题是一大堆数据不会用,相应的手段和技术还没有。

  现在很多企业都有了储存数据的工具,天天都在计算、产生着数据,但是很多没用。人们希望工业系统的运行能达到“多目标优化”,即系统产生的产品质量好、产量高、成本低、消耗低、污染低。传统上,这取决于一个系统里“物质流”、“能源流”、“信息流”这三种“流”的交互性。但现在是信息流在起主要作用,从上面的决策一直到下面的运行都有记录,最后这个东西作用到控制系统,这三“流”作用的时候,人的决策行为要和信息系统结合在一块。人是最复杂的,人的信息行为进入系统后,怎样去分析、优化是大数据时代企业发展面临的大课题。

  另外,我建议大家研究大数据时,要关注一下新的计算方式和新的计算工具的结合,就是量子计算机。据我了解,量子计算机已经产品化。谷歌公司和美国做武器的一家公司都买了量子计算机来做大数据研究。量子计算机引起的革命,上海应该多加关注。


source:上海文汇报

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:24874次
    • 积分:347
    • 等级:
    • 排名:千里之外
    • 原创:7篇
    • 转载:15篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档