大数据诞生之初聚焦在海量数据的批分析,实际使用场景基本都是海量数据T+1的跑批业务,随着用户业务的不断发展,对数据使用维度的复杂性和T+0时效性要求也在不断增加,而且每个需求上都有细粒度甚至苛刻的定义。为此,华为研发队伍不断的加大MRS研发力度,FusionInsight 8.0 MRS版本是产品演进过程中一个较大的转折点,产品在保障跑批及跑批性能的同时,考虑到用户对T+0数据时效的贴源分析场景,引入了更高性能的交互式查询引擎,实现企业全量数据分析从T+0贴源分析,到全量数据融合分析,再到结果的交互式探索分析,解决了过去数据共享难、使用效率低、跨系统链路复杂等难题,实现了统一分析的一站式所见即所得平台。
除此之外,新版本对Spark、Hive等组件进行了增强,使得原有业务应用的性能得到大幅提升,在MRS平台上构建海量数据融合批、流、交互式的一站式分析平台。
FusionInsight 8.0 MRS的版本已正式发布,本文意在结合融合大数据场景重点介绍新版本的核心产品能力。
支持事务ACID,实现全量数据T+0入湖,一站式融合分析,消除数据孤岛
事务以及事务的ACID是数据处理中永恒的话题,原本是经典的数据库设计理论,现在已经逐渐衍生到各种数据平台产品中,MRS也不例外,目的是为了解决在Hadoop生态中数据时效达到T+0贴源分析。
实际上在MRS早期版本中已经沿用并增强了Hive本身对事务的支持,但实际场景中使用效果并不理想,既要兼顾列式引擎的极致查询性能,又要兼顾传统MPP基于事务能力的行式存储