【Spark开发必备技能】2-Spark生态圈

最新推荐文章于 2024-01-18 02:03:45 发布

Spark技术咖

最新推荐文章于 2024-01-18 02:03:45 发布

阅读量1.5k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovechendongxing/article/details/81029799

版权

本文探讨了Spark生态圈的组件，包括Spark Core、Spark SQL、MLLib、GraphX、Spark Streaming和Spark Structured Streaming，强调其在离线、实时计算、图形处理和机器学习领域的广泛应用。此外，还阐述了Spark的强适应性，能够处理多种数据源，并可在不同资源管理器上运行。最后，对比了Spark与Hadoop的区别，突出Spark的DAG执行引擎带来的性能优势。

摘要由CSDN通过智能技术生成

Spark生态圈架构图

1、Spark通用性较强

Spark生态圈包含了Spark Core、Spark SQL、MLLib、GraphX、Spark Streaming和Spark Structured Streaming等组件，提供离线计算、实时计算、图形化处理和机器学习等能力，能够无缝的集成并提供一站式解决方案。

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
Spark SQL：提供Hive查询语言（HiveQL）以及SQL查询语言(如Mysql)与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark Core操作。
GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作
MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作
Spark Streaming：对实时数据流进行处理和控制。Spark Stream

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark技术咖 CSDN认证博客专家 CSDN认证企业博客

码龄15年

20: 原创

30万+: 周排名

63万+: 总排名

8万+: 访问

: 等级

774: 积分

155: 粉丝

67: 获赞

49: 评论

437: 收藏

私信

关注

热门文章

最新评论

Spark运行原理【史上最详细】
uniquewdl: 我觉得作者总体分享的还不错，不过有些内容还是需要详细描述一下，包括DAGScheduler是如何创建的，何时创建的，以及SparkContext怎么运行DAGScheduler进行划分DAG操作。最后还是感谢博主文章，真是受益匪浅。
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序
zz_comeon: 大神好，为什么我这边spark处理完数据写入kafka，我看kafka里面是把一个batch的所有结果当作一条，同时在es里的数据，也只有一条，不过这一条的数据一直在更新。我是滑动窗口，窗口长度是1分钟，滑动步长是1秒，所以我可能希望ES里面有60条数据，每个窗口一条，但是结果是ES里只有一条数据。
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序
lixia0417mul2: 如果改成update模式就不会了。update模式有重复，但是是都输出的，append模式好像总是在等wartermark
Spark运行原理【史上最详细】
dchdd: 比如 job task的划分。从action算子和宽依赖的角度去看划分，reduceByKey应该是窄依赖？Reduce是宽依赖？
Spark运行原理【史上最详细】
dchdd: sparkContext， DAGSchedule ， TaskSchedule之间的关系是不是还能再说清楚些

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。