主讲人 | 浪潮信息数据库产品线总经理-乔鑫
张康 编辑整理
量子位编辑 | 公众号 QbitAI
6月中旬起,量子位发起了以数据库为主题的系列公开课,邀请来自浪潮信息、蚂蚁集团、腾讯云等头部企业的数据库技术线负责人,围绕数据库的行业现状、趋势与技术进展等内容,以线上直播的形式为大家带来3期分享。
第二期直播中,浪潮信息数据库产品线总经理—乔鑫讲述了HTAP数据库的技术原理、优化方案以及开发部署概要等技术问题,为数百位观众带来前瞻的指导。
以下是分享内容实录,直播回放链接、PPT获取方式见文末。
当前数据库行业市场趋势
当前大数据时代,数据量持续的爆发。在行业权威报告中,我们能够从定性到定量有一个更清晰的认知:
从1970年到2005年,甚至2010年,数据的发展相对来讲比较缓慢,并且大部分数据是结构化数据。从2015年到2020年,数据量有了爆发性的增长。一方面,结构化数据在持续增长,另一方面,非结构化数据迅速增加。在2015年时,结构化数据与非结构化数据各占半壁江山,但到了2020年时,结构化数据约占1/5,非结构化数据将占到4/5。
随着互联网、云计算、大数据的普及,数据量增长速度加快,数据的类型也更加丰富多样。根据IDC的预估来看,2020年整个数据量能达到50ZB,到2025年整体数据量将达到175ZB。
数据的结构分类
结构化数据、非结构化数据、半结构化数据都表示什么?
用技术的语言来讲,能用二维表的方式表现出来的数据就是结构化数据,用关系型数据库来做相应的支撑和存储。结构化数据典型性的代表,有:银行账户信息、企业CRM、ERP信息等数据,包括我们在上学时的档案信息等。
与结构化数据相对应的就是非结构化的数据,结构化的数据是用二维表能够进行表现、存储管理,非结构化数据无法用二维表去表现和存储。非结构化数据的结构不规则、不完整,没有预定义的数据模型。比如我们通常看到的文本数据、图像数据、音视频数据等都属于非结构化数据。
在结构化数据和非结构化数据之间,还有半结构化数据。半结构化数据、包含相关标记,用一些分隔符可以对数据进行相应的分割,但是实际上里面还是有大量的数据的结构是不规则的。邮件、html、xml等都是常见的半结构化数据。
数据的价值分类
上述分类是根据数据的类型进行分类,我们也尝试着根据数据的价值分类,分为稠密数据和稀疏数据。
稠密数据具有三大特点,首先是价值密度比较大,数据容量较小。以金融行业为例,信用卡的数据就是稠密数据,用户的每一条消费记录都是有价值、不能丢失的。稠密数据的数据量通常是在GB到TB级别,少数能达到PB级,它的数据容量相对来讲还比较小。其次稠密