基于openLooKeng的跨源、跨域大数据分析性能优化实践

1 大数据分析现状和背景

1.1 大数据分析现状

在这里插入图片描述
从2008年Hadoop成为Apache顶级项目之后,大数据技术经历了一个繁荣的发展阶段,各种组件层出不穷,上图显示了,当前查询分析软件有300+,这也导致了当前大数据平台就像堆积木一样,数据在各个组件之间流转,需要冗长的ETL过程,数据存在多个副本,开发者需要多种系统的编程语言,开发难度高,使用复杂;

在这里插入图片描述
如上图所示,市场占有率最高也仅仅11%,老牌数据库厂商Oracle仅仅占优9%,而others占了53%,即没有巨头,新进入者有巨大的机会;
在这里插入图片描述
从上图可以看出大数据的市场服务占比在40%左右,而数据的服务占比在个位数,这里的服务指使用大数据的服务成本,包括开发,运维和维护,这也间接说明了大数据使用复杂的问题。

1.2 大数据分析面临的挑战

在这里插入图片描述

大数据当前面临的挑战归结起来有三点:

  1. 数据经过ETL之后,存在多个副本,多个数据烟囱,管理复杂;
  2. 引擎接口不同意,跨源关联分析的编程模型复杂,开发难度大;
  3. 跨DC的数据访问,数据需要经过多次的数据搬迁,比如DC1访问DC2,数据先要从数据源->DC2的前置机->共享交互平台->DC1的前置机->DC1的数据分析引擎。

上述的挑战就要求分析引擎提供:
(1)批/交互式融合分析;
(2)跨源数据分析;
(3)跨域协同分析。

2 openLooKeng架构

openLooKeng是一个统一高效的数据虚拟化融合分析引擎,我们的愿景是让大数据变简单,即要解决上述问题。 北向接口方面,openLooKeng提供ODBC、JDBC以及REST接口,以ANSI 2003 SQL为载体提供统一数据访问接口,BI工具、AI工具可以有效地通过所提供的接口与openLooKeng集成,简化系统设计。南向接口方面,通过数据源连接框架,Data Source Connector提供多种数据源的访问能力,无论是大数据生态的Hive或者Hbase,或是OLTP数据库PostgreSQL以及MySQL,都可以方便的接入。此外,openLooKeng提供跨数据中心Data Center Connector,提供高性能跨域协同计算。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值