《Spark大数据分析实战》——第3章BDAS简介

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章BDAS简介,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看

第3章
BDAS简介
提到Spark不得不说伯克利大学AMPLab开发的BDAS(Berkeley Data Analytics Stack)数据分析的软件栈,如图3-1所示是其中的Spark生态系统。其中用内存分布式大数据计算引擎Spark替代原有的MapReduce,上层通过Spark SQL替代Hive等SQL on Hadoop系统,Spark Streaming替换Storm等流式计算框架,GraphX替换GraphLab等大规模图计算框架,MLlib替换Mahout等机器学习框架等,其整体框架基于内存计算解决了原来Hadoop的性能瓶颈问题。AmpLab提出One Framework to Rule Them All的理念,用户可以利用Spark一站式构建自己的数据分析流水线。
在一些数据分析应用中,用户可以使用Spark SQL预处理结构化数据,GraphX预处理图数据,Spark Streaming实时捕获和处理流数据,最终通过MLlib将数据融合,进行模型训练,底层各个系统通过Spark进行运算。
下面将介绍其中主要的项目。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值