石油被认为是定义了二十世纪的一种商品,能源、交通、贸易、材料等多个行业都跟石油有着紧密的联系,石油几乎代表着一切。当时间进入到21世纪,数字化时代到来,数据成为最有价值的商品,整个数字世界的构建都离不开数据。
数据就像水一样,它滋润着数字世界的万物。因此,当华为在全球数据基础设施论坛上宣布面向鲲鹏计算产业,全面启动数据基础设施战略,并将其开源数据虚拟化引擎命名为河图(HetuEngine),其用意不言而喻。“之所以用河图这个名字是因为源自‘大禹得河图始见清明’,大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业。”华为Cloud & AI 产品与服务总裁侯金龙如是说。
事实上,拉开时间轴来看,华为今年围绕数据推出了一系列的产品与解决方案,从年初的OceanStor分布式存储、GaussDB数据库的推出,到年中OceanStor Dorado V6全闪存存储以及华为智能融合数据解决方案的发布,再到年底华为开源数据虚拟化引擎河图的亮相,华为数据基础设施战略的蓝图已经初步勾勒清晰。
在数据成为智能时代的生产资料,整个数字世界的构建和运转都是围绕数据进行时,华为数据基础设施战略的推出,不仅仅是对于智能时代的一种呼应,更是对于用户数字化转型基础设施建设需求的一种满足。
数据基础设施成大势所趋
数据基础设施兴起的大背景其实是数字经济的快速发展。当前,数字经济步入快速发展期,被普遍认为是经济发展的新引擎。以2018年为例,我国数字经济规模达到31.3万亿元,同比增长20.9%,占GDP比重达到34.8%,这背后其实是行业加速产业数字化、企业加速数字化转型,产业组织、商业模式以及生产方式全都将围绕数据而进行重塑。
当然,这一切的基础就是数据基础实施。中国信通院认为,数据基础设施是面向现代化经济体系建设和数字经济发展,融合感知、传输、存储、计算、处理等能力为一体,为社会生产生活进行数字化、网络化、智能化的新一代智能化基础设施。
与过去传统的IT基础设施不同,数据基础设施具有四大特征,它首先是传统IT基础设施的延伸,强调信息技术与传统基础设施的深度融合;此外,数据基础设施具备融合、协同、智能、安全、开放五大特性;可以有效满足数据的存储、管理、计算等方面的新需求;还能够推动数据应用生态的构建,将数据资源转换为数据资产。未来,作为数字经济的基石,数据基础设施应该具备全面感知、泛在连接、高速传输、智能分析以及敏捷响应五大能力。
侯金龙表示:“数据增长是无限的,而数据基础设施资源却是有限的。”根据预测,全球数据量将从2018年的33 ZB快速增长到2025年的180 ZB。但是,产生的数据中仅有不到2%被保存,而被保存的数据中仅有不到10%被应用。
目前来看,各方对于数据基础设施的定义、重要性等抱有不同的看法,尚未形成广泛的共识;此外,在技术层面,数据采集、传输、处理、存储、分析技术能力依然有待提升;而且新兴技术融合面临一定的困难,尤其是传统行业基础设施数字化程度低,改造难度大;随着网络安全防护的边界不断扩展,数据基础设施安全层面涉及终端、设备、网络传输、边缘节点、数据等,需要去重点防护;最后则是应用推广路径不清晰,针对数据基础设施可持续商业模式有待探索。
“华为希望打造融合、智能、开放的数据基础设施,让数据的采、存、算、管、用实施全生命周期端到端的整合和优化,让数据的每比特发挥价值最大,数据的每比特成本最优。”侯金龙如是说。
华为数据基础设施的三个关键词
如今,随着5G、大数据、云计算、IoT以及人工智能等技术的加速应用,各个行业的用户普遍都需要面对边缘、中心以及云三个环境。业务环境和业务场景的改变正在加速基础设施的变革,在华为看来,行业场景归根结底主要分为三类:生产交易场景、数据湖场景、边缘场景。
“像金融、电信以及大型企业的ERP属于典型的生产交易场景;而像政务大数据、公安大数据、电力大数据这些则属于典型的智能数据湖场景;另外像运营商、银行、煤矿、地铁等需要的则是边缘数据基础设施。”华为智能数据与存储领域总裁周跃峰补充道。
因此,华为的数据基础设施战略也面向这三大场景推出了三大解决方案,包括面向生产交易场景的OceanData、面向智能数据湖场景的FusionData以及面向边缘场景的FusionCube 2.0,涵盖了从AI芯片、存储、数据库到大数据、智能运维与管理等多种产品。
事实上,华为在今年9月份全联接大会上正式发布了计算战略及其“一云两翼双引擎”的计算布局,华为数据基础设施战略是华为计算大战略的一部分。融合、智能、开放是华为数据基础设施战略最为核心的三个关键词,华为希望通过数据基础设施建设让用户的数据系统从孤立走向融合,从复杂走向智能,从封闭走向开放。
在融合方面,华为认为烟囱式IT业务系统带来两个问题:存的时候会产生多个冗余副本,且数据无法流动,存储成本高;分析的时候会导致大量数据搬迁,分析效率低。为此,华为希望打破存储内部系统墙、数据库与存储链路墙、大数据与存储配置墙、数据库与大数据协同墙这四堵用户最为常见的数据墙。侯金龙表示:“我们希望让数据的融合更加彻底,让数据流动起来,进而让整体TCO大幅下降,数据访问、处理、分析的性能与效率大幅提升。”
在智能方面,华为为数字基础设施构建起基于AI芯片、存储和华为云的三层架构,通过云上训练和云下推理,让数据基础设施的配置和运维更加简单、效率更加高效。“依托像昇腾处理器的AI能力,自动学习和识别IO流,提升Cache命中率,让系统整体性能达到提升,并且结合华为云大规模运维运营经验,实现性能预测和故障自我修复。”侯金龙介绍道。
在开放方面,针对目前很多用户业务类型增多、大量业务需要跨平台、跨数据源协同分析,找数难、取数难、用数难等情况,华为数据基础实施通过“河图引擎”来屏蔽数据类型差异、地域差异、语法差异,让数据治理和使用更加简单。
当然,华为也坦言数据基础设施依然处于起步阶段,从产品到解决方案依然存在着很大的提升空间。“数据基础设施依然存在着很多挑战,主要有两个方面:第一是生态,第二则是中国在基础设施研究领域依然比较薄弱。今天在中国市场,我们在互联网应用层面有着很多非常出色的创新,但是在应用下面的基础设施领域还需要进一步提高。”周跃峰如是说。
为此,华为成立了鲲鹏智能数据产业联盟来持续推进智能数据产业发展,希望让产学研用全面参与到数据基础设施的创新之中。鲲鹏智能数据产业联盟包括数据库产业推进组、鲲鹏大数据产业推进组、鲲鹏智能边缘产业推进组、存储产业推进组(筹)等。华为还设置了奥林帕斯奖,目的就是希望全球科研者参与到数据基础设施业界难题的解决中来。
河图引擎:让数据基础设施平台化
在本次论坛上,华为河图引擎(Hetu Engine)首次向外界亮相。华为河图引擎的目的是为了屏蔽数据基础设施的复杂度,让开发者像使用数据库一样使用大数据,复用现有的生态、工具和技能,让数据治理、使用、价值挖掘更加简单和方便。
华为河图引擎具备四个核心能力:
- 一个目录:通过元数据在线感知,构建1000+异地异构数据源全局虚拟数据视图,打破数据孤岛,数据全局可视,解决企业找数难问题。
- 一个入口:通过开放的连接框架、5000节点SQL引擎,实现30种异地异构数据源统一SQL访问,秒级获取,数据全局可得,解决企业取数难问题。
- 一份数据:通过CarbonData技术,实现一份数据多场景分析,多应用共享,数据零搬迁,数据全局可用,解决企业用数难问题。
- 统一安全:通过细粒度动态授权、敏感数据自动感知技术,实现异地异构数据源集中式安全配置与管控,数据全局可控,数据授权时间从天到秒,解决企业数据安全与合规问题。
相比目前火热的数据中台,华为河图引擎所要做的事情是,对下去解决数据接入、数据共享的难题,对上有利于应用的数据分析与挖掘。目前业界对于数据中台主要有两种路线:一种是以营销等业务场景切入的数据中台;另一种则是倾向于通用型的数据中台。但是,华为更加强调河图引擎并不是中台,而是真正让数据基础设施走向平台化。
周跃峰表示:“中台目前是一个模糊的概念,包括像数据中台、业务中台等等。河图引擎更希望打造成一个平台,它并没有业务属性在其中。平台的好处在于它可以让生态合作伙伴们真正去使用。”
为此,华为宣布将于2020年6月份正式对河图引擎开源,华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。
“以南向接口为例,华为不希望只有华为的核心处理组件连接河图,其他数据库厂商的产品也能够灵活接入,这样真正形成一个开放的大生态。”周跃峰最后补充道。
总体而言,在基础设施领域实现突破是一件需要持续投入、并且困难重重的事情。华为数据基础设施战略的推出,表明华为愿意去承担这项任务,携手广大合作伙伴去改变市场局面。人们常言:“想全是问题,做才是答案。”期待华为未来在数据基础设施结出更多硕果。