张亚勤表示,大数据具有高容量、高速度、多类型等“3V”的特点,应用大数据发挥价值包括数据的管理、数据的扩充、数据的呈现三个层面。
大数据的3V
张亚勤表示,讲到大数据3个V,一个是Volume,数据容量越来越大,第二个是 Velocity,数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。第三个就是各种各样类型的数据,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是完全没有结构的数据,从企业里来的、从互联网来的,从用户来的各种各样的数据都大量进入我们的服务器、进入数据中心,所以这里面产生了很多的挑战,这么多数据怎么样把它变成信息,怎么样把信息变成知识,把知识变成决策,这就需要有更多的很好的数据处理能力。
面对这样的挑战,张亚勤认为,我们需要更多人从事一个叫数据科学家的职业,这些人需要有计算机科学的背景,需要有很强的数学背景,也需要有很强的统计学背景,要对大量的数据进行这样的处理、逻辑的分析和结构化的呈现。
挖掘大数据价值的三个层面
张亚勤表示,大数据包括三个层面。首先是数据的管理,对各种来自不同的地方、不同的大小的数据,都进行采集和管理,这里面有实时的数据,也有非实时的数据。第二个层次,是数据的扩充,怎么样去挖掘、推荐、转换、清洗、按摩、分享和控制,这就是传统的ETL流程。第三个层次,就是怎么样把数据很好地呈现出来,用好的工具,大家获得更直觉的洞察力。
微软的数据平台根据这样的职能,也分成三个不同的层次。这里面比较重要的,就是我们可以接收各种各样的数据,在物理层次,有企业的、有IOT传感器的、有从网络里面经过爬虫收集的数据。有了这些数据之后,根据数据不同的种类,如果是企业数据,我们有微软的数据仓库来进行处理。如果这个数据也可以到公有云,也可以到私有云,那我们支持大数据的平台是基于Hadoop,Hadoop是开源平台。在处理之后,上面是商业的智能平台,当然,最上面一层是好的可视化呈现的工具,包括 PowerView等等,就可以消化这些数据。
不过,张亚勤表示,谈到大数据,我们就遇到一个挑战,Hadoop可能对于处理大数据很有效,但是对流数据、实时的数据就不太有效,所以微软开发了对于半实时、或者实时的软件,这个流数据可以去实时地处理。这里面对于数据库的要求都完全不一样,所以,我们要有大量处理并行数据、流数据的能力。