Hadoop体系的大数据架构,主要有哪几种,有什么优缺点?

本文探讨了Hadoop体系在大数据架构中的角色,对比了传统大数据架构、流式架构、Lambda架构、Kappa架构和Unified架构的优缺点及适用场景。Hadoop解决了传统BI系统对非结构化数据处理的不足,但其分布式存储和计算特性也带来新的挑战。各种架构在应对数据时效性、实时分析和离线一致性方面各有特点。
摘要由CSDN通过智能技术生成

随着大数据技术的发展,数据挖掘、数据探索等专有名词的曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:

目前围绕Hadoop体系的大数据架构,主要有哪几种,有什么优缺点?

可以看到在BI系统里面,核心的模块是Cube。Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。

大部分BI系统都基于关系型数据库,而关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX。

MDX表达式具有更强的多维表现能力,因此以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供BI套装软件服务,轻易便可搭建出一套OLAP分析系统,不过BI的问题也随着时间的推移逐渐暴露出来:

BI系统更多以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力。例如图片、文本、音频的存储、分析。

由于数据仓库为结构化存储,当数据从其它系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。

随着异构数据源的增加,例如如果存在视频、文本、图

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值