数据基础设施白皮书2019

注:本博客内容节选自中国信息通信研究院与华为技术有限公司共同编写的《数据基础设施白皮书2019》,该白皮书力图从数据应用的现状与问题出发,总结数据基础设施的内涵与技术特征。
原文链接:这里

1 前言

人类社会几千年来经历了农业经济、工业经济,如今已经进入到数字经济时代。根据联合国《2019年数字经济报告》的统计,数字经济的规模估计占全球生产总值的4.5%至15.5%之间,其中中国和美国是引领世界数字经济发展的核心。《中国互联网发展报告2019》指出,2018年,中国数字经济规模达
31.3万亿元,占GDP比重达34.8%,数字经济已成为中国经济增长的新引擎,正在深刻改变全社会的生产和生活方式。

虽然学界对数字经济的构成模式和理论体系还没有清晰的界定,但数据作为数字经济时代最有价值的生产资料已经是毋庸置疑的共识。云计算、大数据、物联网、移动互联网、人工智能等ICT新技术、新模式的发展和应用无一不是以海量数据为基础,又反过来带动了数据量的爆发式增长。

就像石油的“采-运-炼-储-用”是工业经济的核心命脉一样,面向海量数据的“采-存-算-管-用”是支撑数字经济运行的基础能力。海量数据蕴含巨大的价值,也带来了前所未有的挑战,数据“存不下、流不动、用不好”成为了各行业数据应用最普遍的难题,以“融合、协同、智能、安全、开放”为特征的新型数据基础设施可以帮助各行业实现数据存储智能化、管理简单化和价值最大化,是推动各行业拥抱数字经济浪潮的关键因素之一。

2 新技术推动数据爆发增长

GIV2025报告显示,到2025年,全球将产生180ZB数据。新技术的出现持续推动着数据增长与流动。

2.1 4K/8K带来数据存储的需求量激增,以及极致稳定的读写高带宽的需求

当前,信息视频化、视频超高清化已经成为全球信息产业发展的大趋势。从技术演进来看,视频己经从标清、高清进入4K,即将进入8K、AR/VR时代。以广电行业为例,今年3月1日,工业和信息化部、国家广播电视总局、中央广播电视总台联合发布了《超高清视频产业发展行动计划(2019-2022年)》,提出坚持“4K先行、兼顾8K”的总体技术路线,到2022年,中国超高清视频产业总体规模将超过4万亿元。4K超高清的建设和应用,使广电行业IT基础设施在高可靠的基础上,向着高性能、低延迟、集约化的方向转型,尤其对存储平台的能力带来巨大挑战。4K超高清制播业务所产生的数据量比高清多出至少4倍以上,制播的各个环节,如视频剪辑、特效合成、渲染、调色、视频输出等,都需要海量的存储空间以及并发的读写能力。

2.2 5G/IoT/车联网带来数据量激增,同时也让数据采集和云边协同能力发生质的变化

5G通过提升连接速率和降低时延,使得单位时间内产生的数据量急剧增长,单位面积内的联网设备成倍增加,海量原始数据将被收集。4G时代,数据多产生于人与人之间的互联,5G时代,物联网将得到较大程度的发展,人与物、物与物之间的连接将急剧增多,数据采集渠道将更加丰富,如联网汽车、可穿戴设备、机器人等,这也对数据存储与采集技术提出更高要求。同时,5G时代下越来越多的IoT设备将通过边缘计算进行存储、处理和分析,云、边协同能力变得尤为重要。

2.3 自动驾驶将产生海量数据,成为新的数据制造机

自动驾驶汽车依赖于安装在车身上的各种传感器传输的大量数据,因此要实现自动驾驶,首先要做好准备迎接海量数据的“洗礼”。在自动驾驶训练时期,以一辆车的信息采集为例,在进行自动驾驶算法路测的过程中,每辆汽车每天将产生60TB的训练数据量,仅仅在2017年,该领域就创造了大约250EB的数据量。2020年前后,自动驾驶汽车将正式上路,每小时将产生4TB的数据,其中包括了关于道路状况、天气、周围物体、交通和街道标志等的实时信息数据,海量数据存储与处理的时代即将到来。

2.4 AI/大数据将改变数据的存储周期和形态

首先,AI需要更长的数据存储周期。比如,公安部《公安机关现场执法视音频记录工作规定》明确提出,现场执法视音频资料的保存期限原则上应当不少于六个月,以构筑“更长证据链”。其次,AI需要全数据训练、处理和分析。在数据规模化增长的趋势下,可以按温度来定义不同访问频率的数据:经常被访问的数据称为热数据,而较少被访问的数据称为冷数据,处于中间状态的称为温数据。应用AI之后,需要数据能在冷、温、热之间随时进行切换。

3 数据应用的现状总结

新技术和产业的出现,正在加速企业的数字化转型,大量新的硬件与应用带来数据量快速增长的同时,也让数据类型越来越多样化。生产、采集和保存尽可能多的数据,用于全量分析以洞察先机,成为企业的共识。海量数据蕴含巨大的价值,也给存储系统带来了前所未有的挑战,数据存不下、流不动、用不好成为了各行业数据应用最普遍的难题。

3.1 存不下——数字化浪潮下的海量数据存储挑战

创新业务推动企业的数据量从PB级向EB级迈进,根据《华为全球产业展望GIV》预测,全球新产生的数据量将从2018年的32.5ZB快速增长到2025年的180ZB。由于存储系统仍为传统架构以及成本等原因,当前企业数据仅有不到2%被保存,数据“存不下”的问题日益严重。

  • 存储扩展性不足: 传统存储由独立的控制器与硬盘框组成,当容量不足时可增加新的硬盘框进行级联,但由于控制器的处理能力受限,存储的扩展能力非常有限。在政务云建设中,省级平台通常需要规划至PB级的容量,单套存储已经无法满足需求,因此只能部署数十套高端、中端和低端的设备,导致管理的复杂和数据的割裂。
  • 存储协议类型单一: 非结构化数据逐步成为企业数据的主体。随着电商、物联网等业务扩张,80%的新增数据由各类音视频、日志等非结构化数据构成。然而传统存储协议类型单一,无法同时满足块、对象、文件、大数据等多样性数据的存取需求,企业不得不为每一种新的数据类型新增一种存储设备,增加了高效利用存储资源的难度。
  • 存储成本依然高昂: 越来越多的企业选择将数据长期保存。2017年起,移动运营商因合规性要求,将其设备日志的保存周期从2个月增加至6个月。这意味着其数据存储服务器的设备规模将增加至少2倍。传统的架构中,服务器因存储需求不断扩容,但CPU的使用率却始终处于较低的状态,资源得不到合理利用,无疑会对采购成本和维护成本造成更大的压力。企业不得不因为存储成本而放弃大量宝贵数据。

3.2 流不动——由来已久的数据孤岛难题

孤立的数据价值并不显著,只有当数据像水一样流动起来,才能打破“数据壁垒”,最大化释放其价值。然而当前企业保存下来的数据,由于技术与流动性问题,只有10%的数据能得到分析,数据孤岛、多样性设备、业务迁移成为数据“流不动”的主要瓶颈。
数据的“三类孤岛”

  • 应用孤岛: 不同应用产生的数据分别存放在不同的存储系统中,而且这些数据由于各自的特征,彼此之间是无法共享使用的,即形成“应用孤岛”问题;
  • 管理孤岛: 为对生产数据加以保护和使用,会将生产数据的一个副本,拷贝到各个系统(如备份、容灾、归档、开发测试和分析系统)中进行管理和使用。即便是同一份数据,为实现不同目的,还需分别存储、管理和使用,即形成“管理孤岛”问题;
  • 地理孤岛: 由于企业的更新换代,将存在多套存储设备,比如生产环境、非生产环境、云环境和边缘环境,企业的数据将存放在不同的地方,形成“地理孤岛”问题.

资源的“三堵高墙”
产生上述问题的根本原因:企业在建设数据基础设施时,从满足客户的诉求出发并考虑投资成本问题,会选择不同的计算资源、网络资源和存储资源来分别满足客户的不同诉求。

  • 算力墙: 各个存储系统的CPU能力,仅供本系统使用,无法将算力资源共享使用,形成各存储系统
    之间的“算力墙”;
  • 网络墙: 各个网络都有各自的协议,彼此之间无法互连互通,即各个网络之间形成“网络墙”;
  • 介质墙: 存储介质的性能、容量和成本各不相同,客户会选择合适的介质存储数据,这使得数据分别存储在不同系统的不同介质中,而且这些数据很难共享访问,即各个存储介质之间形成“介质墙”。

3.3 用不好——数据供应不足造成应用复杂低效

海量的数据孕育了前所未有的机遇,也带来了巨大的挑战。甚至有人说,从来不缺数据,数据多了反而成为一种负担。也有人说,数据只是资源,而不是资产,很难产生价值。其根本原因是没有用好数据,数据没有释放价值。而影响数据价值释放的主要原因是数据供应不足,无法反馈业务本质,支持业务决策:
大量数据未存储
企业每天会产生大量数据,但传统的数据录入需要预先的人工规划,这导致大量非结构化数据以及一些新型的数据无法进入系统(例如IoT数据、视频数据、图片数据等)。数据的缺失会削弱对业务的感知,无法真实及时地反映出业务本质。
找不到数据
传统企业通常通过数据表来管理和分析数据,规模较大的公司数据表甚至可以达到数百万张,而且分散在各个业务系统中。如果没有统一数据目录和全局数据视图,要在上百万张报表中找到特定的数据,好比大海捞针,无法应对灵活多变的业务需求。
谁对数据负责
在大数据时代,一个典型的分析业务通常需要跨平台的数据协同。如果已经接入的数据无法满足分析需求,需要从前端多个业务系统获取新的数据,再加上缺乏统一的隐私与安全共享机制,数据就需要经过多部门间协调、拉通、核实才能获得。数据分析的链路冗长,一旦出现问题,就需要“六方会谈”才能定位,无法保证数据供应稳定和高可用,更无法实现高效的数据融合分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值