数据湖背景
“数据湖”概念是在2010年首次提出,他将数据湖比喻成未经处理和包装的原生状态水库,当不同源头的水体源源不断流入数据湖,并为企业带来各种分析、探索的可能性。数据湖的概念指出,数据无需加工整合,可直接堆积在大数据平台上,由最终使用者按照自己的需要进行数据处理。而传统的企业数据仓库则强调的是整合、面向主题、分层次等思路。可以说,数据湖建设思路从本质上颠覆了数据仓库建设方法论。
大数据湖的业务价值
众所周知,基于层次化数据架构设计的数据仓库可能产生诸多问题,如数据使用的复杂性、数据信息的可能丢失、数据架构难以快速调整等,而数据湖的思路,正是把上述问题留给了最终用户,由最终用户按照自己的要求自行解决。某种程度上,数据湖并不是一个技术概念,而是数据管理的另一种思路,对于IT技能较强、数据使用需求灵活、习惯于不走寻常路自行钻研业务问题的用户来讲,不失为一种可借鉴的方法。大数据湖实际上是一种利用低成本技术来捕捉,提炼,储存和探索大规模的长期的原始数据的方法与技术实现。
大数据湖的几大特点主要有:
1) 不同的数据种类是构建大数据湖的主要驱动因素
企业大数据湖可存储各种结构业务数据:
· 海量的结构化数据
· 半结构化数据(日志、XML文件等)
· 非结构化数据(文件、图片、音频、视频等)
2) 存储全量历史数据及其所有属性
企业大数据湖需要存储海量业务数据:
· 将实时业务数据持久化
· 将在线业务系统数据近线化存储
· 将企业数据仓库、数据集市的历史数据卸载存储
· 将企业中离线存放在磁带库、光盘库中的历史数据在线化
3) 数据设计模式的灵活性:
传统的企业数据仓库通常采用Schema On Write方式,即将数据写入预先定义好的E-R数据表结构中。而大数据湖还会采用Schema On Read方式,即在数据访问时,由数据访问者来解析和确定数据的格式,写入者并不关心其是否有一致、统一的数据格式。这种方式具有以下优点:
· 降低数据保存的成本,无需开发即可保存。
· 降低数据产生和使用之间的延迟。
· 给予最终用户最大的灵活度来处理数据。
· 允许用户保存非结构化、半结构化的数据。
· 对于现在不需要处理或者无法处理的数据,保留原始数据供未来使用。
· 同一份原始数据上,不同的用户可能有不同的理解。
Schema On Read和Schema On Write两种方式有其不同的优缺点。在两种不同的数据架构设计策略下,在什么样的场景下使用哪种数据管理模式需要依据使用要求决定。整体来讲,针对原始数据,采用Schema On Read管理模式进行数据保存,针对稳定性较高,相对固定的应用,采用Schema On Write的方式将解析后的数据进行保存,两者方式相结合是比较可行的方式。
4) 提高数据的使用和共享:
提高数据的使用和共享,为多个下游系统提供数据源: 企业大数据湖会为企业数据仓库、数据集市、在线联机查询、移动App应用等下游系统提供丰富完整的全量业务数据。
SequoiaDB 大数据湖解决方案(Data Lake)
基于SequoiaDB巨杉分布式数据库,可以为企业提供一个分布式、支持批处理分析以及在线查询以及交易类的大数据湖,满足企业对大数据平台日渐增长的期望与需求。如上图所示,数据湖从功能区上被分为在线区与分析区,分别对应着OLTP等高并发、实时性要求高的操作类业务,以及传统数仓类批处理业务。
1111.png
大数据湖分析域与操作域
SequoiaDB巨杉分布式数据库Share-Nothing分布式MPP架构,灵活的数据类型定义,JSON存储及块存储的双引擎机制很好地满足了企业构建大数据湖的技术需求。
2222.png
SequoiaDB大数据湖架构图
基于SequoiaDB巨杉分布式数据库的企业大数据湖在灵活性、独立性、敏捷性、时效性方面,更加能够适应于企业的敏捷开发,数据分析应用的快速迭代。因此,当企业用户需要进行灵活、独立的数据使用要求时,则需要通过扁平化的、贴源的数据架构,以大数据湖的模式来建设企业级大数据湖。
构建基于巨杉数据库的企业大数据湖,采用层次化与扁平化数据架构相结合的设计模式,将使企业在大数据时代,让业务人员可以更加快速和灵便的使用数据,解决企业不同分析需求,带来更高的业务价值,实现投入/产出的最佳平衡