五天了解大数据｜Day1 邂逅Spark

最新推荐文章于 2024-09-24 16:20:32 发布

大数据与我

最新推荐文章于 2024-09-24 16:20:32 发布

阅读量1.9k

点赞数

文章标签： big data spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59357592/article/details/122676969

版权

What is Spark？

～ is a multi-language engine for executing data engineering, data science , and machine learning on single-node machines or clusters.

What is the relationship between Spark and Hadoop?

Hadoop:

大数据生态
运行慢
给了Spark出生的土壤

Spark:

基于内存，快
支持多种语言——容易使用
功能全
易融合

Using：

日志文件，长安区数据的流交流
机器学习
数据分析师交互式分析
各系统间的数据集成和清洗

Core：

Spark Core

提供～最核心功能，是下面几个板块扩展的基础

Spark SQL

可以使用SQL操作结构化数据的组键

Spark Streaming

Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的API

Spark MLlib

～提供的一个机器学习算法库，学起来较困难

Spark GraphX

～面向图计算提供的框架与算法库

The Arch of Sys in Spark

~采用了分布式计算模型的Master—Slave模型。Master是对应集群中含有Master进程的结点，Slave是集群中含有Worker进程结点。

ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。
Worker：从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为NodeManager，负责计算节点的控制
Driver：运行Application的main（）函数并创建SparkContext。
Executor：执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executors。
SparkContext：整个应用的上下文，控制应用的生命周期。

Conclude

挺好的通识读物，希望后面会有让人亮眼的操作
了解了新的工具Spark，对于本来就是大数据专业的我可以说算是开光了。
师傅引进门，修行靠个人，与群友共勉。

大数据与我

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。