大数据基础架构

一、大数据两大核心技术:

分布式存储:HDFS、HBase、NoSQL、NewSQL
分布式处理:MapReduce

二、大数据计算模式:

三、代表性大数据技术:

1.Hadoop:ETL工具(extract、transform、load)

 YARN的目标就是实现“一个集群多个框架”,即在一个集群上部署一个统 一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架,并由YARN为这些计算框架提供统一的资源调度管理服务,可以动态调整各自占用的资源。

一个企业当中同时存在各种不同的业务应用场景,需要采用不同的计算框架,四种计算框架:

  • MapReduce实现离线批处理
  • 使用Impala实现实时交互式查询分析
  • 使用Storm实现流式数据实时分析
  • 使用Spark实现迭代计算

这些产品通常来自不同的开发团队,具有各自的资源调度管理机制,为了避免不同类型应用之间互相干扰,企业就需要把内部的服务器拆分成多个集群,分别安装运行不同的计算框架,即“一个框架一个集群”,导致的问题:

  • 集群资源利用率低
  • 数据无法共享
  • 维护代价高

Hadoop缺点:

  • 表达能力有限,局限于Map和Reduce操作
  • 磁盘IO开销大,延迟高
  • 任务之间的衔接涉及IO开销(在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务)

2.Spark 

 Spark优点:

  •  Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型(groupByKey、MapValues...),编程模型比Hadoop MapReduce更灵活
  • Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高,运行速度快
  • Spark基于DAG(有向无环图)的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制(每次中间降落都要经过磁盘,太慢了)
  • 容易使用:支持Scala、Java、Python、R语言进行编程,还可以通过spark shell进行交互式编程
  • 具有完整强大的技术栈,包括:SQL查询、流式计算、机器学习和图算法组件
  • 运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

附:BDAS伯克利数据分析软件栈

问题:Spark会取代Hadoop吗?
        Hadoop包括两大核心:HDFS和MapReduce。Spark作为计算框架,与MapReduce是对等的。
谈到“取代”,Spark应该是取代MapReduce,而不是整个Hadoop。Spark借助于Hadoop的HDFS、HBase等来完成数据的存储,然后,由Spark完成数据的计算。

3.Flink 

Flink和Spark对比:我觉得最核心的区别是Spark核心实现基于Scala,核心采用批处理模型且基于RDD,所以在流式处理时会有一些延时;Flink内核基于Java,基于操作符的连续流模型按行处理,因此在流式处理方面就比Spark快,支撑毫秒级响应。Flink生态没有Spark好,所以没打过Spark。

4.Beam

谷歌开发的Beam试图一统天下,但是不愠不火,没有惊起波澜。

  • 2
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据平台架构和BI(Business Intelligence)架构是两个不同但相互关联的概念。 大数据平台架构是指用于处理和存储大数据的技术框架和组件的集合。它通常由各种组件组成,包括数据采集、数据存储、数据处理和数据分析等。大数据平台架构的目标是提供高性能、可扩展和可靠的基础设施,以支持大规模数据的处理和分析。 BI架构是指用于构建和管理企业的商业智能解决方案的技术架构。它包括数据仓库、数据集成、报表和可视化工具等组件。BI架构的目标是将企业内部和外部的数据整合起来,提供实时、准确和可视化的数据分析结果,帮助企业做出更明智的决策。 大数据平台架构和BI架构之间存在紧密的关系。大数据平台提供了强大的数据处理和存储能力,可以处理大量的结构化和非结构化数据。BI架构则利用大数据平台提供的数据,进行数据整合、清洗、转换和分析,将结果可视化呈现给用户。通过整合大数据平台和BI架构,企业可以更好地利用大数据资源,提高数据分析的效率和准确性,从而更好地支持决策制定和业务优化。 总而言之,大数据平台架构和BI架构相互补充,共同构建了一个完整的数据分析和决策支持系统。大数据平台提供了数据处理和存储的基础设施,而BI架构则利用大数据平台提供的数据进行分析和可视化展示。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值