对比解读五种主流大数据架构的数据分析能力

 

 

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、对业务发展有着举足轻重的作用。

随着大数据技术的发展,数据挖掘、数据探索等专有名词的曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:

对比解读五种主流大数据架构的数据分析能力

可以看到在BI系统里面,核心的模块是Cube。Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。

果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入。每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战。

大部分BI系统都基于关系型数据库,而关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX。

MDX表达式具有更强的多维表现能力,因此以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供BI套装软件服务,轻易便可搭建出一套OLAP分析系统,不过BI的问题也随着时间的推移逐渐暴露出来:

BI系统更多以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力。例如图片、文本、音频的存储、分析。

由于数据仓库为结构化存储,当数据从其它系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。

随着异构数据源的增加,例如如果存在视频、文本、图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂的ETL程序,从而导致ETL变得过于庞大和臃肿。

当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值