Spark从入门到精通（一）

最新推荐文章于 2022-04-16 18:06:09 发布

weixin_34355881

最新推荐文章于 2022-04-16 18:06:09 发布

阅读量509

点赞数

文章标签：大数据 json 人工智能

原文链接：http://www.cnblogs.com/sky-chen/p/10046888.html

版权

什么是Spark

大数据计算框架
离线批处理
大数据体系架构图（Spark）
Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLib用于机器学习，Spark GraphX用于图计算
Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储（比如HDFS、Hive、HBase）等，，以及资源调度（Yarn）
Spark+hadoop的组合是大数据领域最热门的组合，也是最有前景的组合
Spark与MapReduce计算过程，Spark基于内存进行计算，所以速度更快
Spark整体架构图

Spark的特点

速度快：基于内存进行计算（当然也有部分计算基于磁盘，比如shuffle）
容易上手开发：Spark的基于RDD的计算模型，比Hadoop的基于Map-Reduce的计算模型要更加易于理解，更加易于上手开发，实现各种复杂功能，比如二次排序，topn等复杂操作时，更加便捷
超强的通用性：Spark提供了多种计算组件
集成Hadoop：Spark与Hadoop进行了高度的继承，完成double win
极高的活跃度

Hive架构

Spark SQL实际上不能完全替代Hive，以为Hive是一种基于HDFS的数据仓库，并且提供了基于SQL模型的，针对存储了大数据的数据仓库，进行分布式交互查询的查询引擎
严格来讲，Spark SQL能够替代的，是Hive的查询引擎，而不是Hive本身，Spark本身是不提供存储的，自然不能替代Hive作为数据仓库的这个功能
Hive的查询引擎，基于MapReduce，必须经过shuffle过程走磁盘，因此速度是非常缓慢的。Spark基于内存，因此速度达到Hive查询引擎的数倍以上
Spark SQL相较Hive的另一个特点，就是支持大量不同的数据源，包括Hive、json、parquet、jdbc等等。此外，Spark SQL由于身处Spark技术堆栈内，也是基于RDD来工作，因此可以与Spark其他组件无缝整合使用。比如Spark SQL支持可以直接针对hdfs文件执行sql语句

Storm与Spark对比

转载于:https://www.cnblogs.com/sky-chen/p/10046888.html

weixin_34355881

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。