《Spark大数据分析实战》——第3章BDAS简介

最新推荐文章于 2024-07-12 23:11:20 发布

weixin_34176694

最新推荐文章于 2024-07-12 23:11:20 发布

阅读量359

点赞数

文章标签：人工智能大数据

原文链接：https://yq.aliyun.com/articles/108563

版权

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章BDAS简介，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

第3章
BDAS简介
提到Spark不得不说伯克利大学AMPLab开发的BDAS（Berkeley Data Analytics Stack）数据分析的软件栈，如图3-1所示是其中的Spark生态系统。其中用内存分布式大数据计算引擎Spark替代原有的MapReduce，上层通过Spark SQL替代Hive等SQL on Hadoop系统，Spark Streaming替换Storm等流式计算框架，GraphX替换GraphLab等大规模图计算框架，MLlib替换Mahout等机器学习框架等，其整体框架基于内存计算解决了原来Hadoop的性能瓶颈问题。AmpLab提出One Framework to Rule Them All的理念，用户可以利用Spark一站式构建自己的数据分析流水线。
在一些数据分析应用中，用户可以使用Spark SQL预处理结构化数据，GraphX预处理图数据，Spark Streaming实时捕获和处理流数据，最终通过MLlib将数据融合，进行模型训练，底层各个系统通过Spark进行运算。
下面将介绍其中主要的项目。

weixin_34176694

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Spark大数据分析实战》——第3章BDAS简介

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章BDAS简介，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看第3章BDAS简介提到Spark不得不说伯克利大学AMPLab开发的BDAS（Berkeley Data Analytics Stack）数据分析的软件栈，如图3-1所示是其中的Spark生态系统。其中用内存...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。