Spark入门

1.Spark概述

1.1什么是Spark?

进入官网,看简介:http://spark.apache.org/

Apache Spark™ is a unified analytics engine for ==large-scale data processing. ==
Spark是一个处理大数据的分析引擎。

2.Spark的模块

在这里插入图片描述
四大模块:
SQL,流式数据处理(实时计算),机器学习,图计算。

3.Spark的特点

四个特点,一眼便知。

  1. 比Hadoop的MapReduce快110+。
  2. 易用,可以用Java, Python, R 和SQL
  3. 通用,处理不同类型的业务,几乎是一站式。处理四大模块。
  4. 兼容,可以独立运行,也可以运行在YARN,Mesos,Kubernetes。
    可以从HDFS, HBase, Hive,MySql等中读/写取数据

2.Spark运行模式

2.1 单机模式

单机模式略过不提

2.2 集群模式

集群模式官网给出三种:
在这里插入图片描述

  1. 独立运行
  2. 在Mesos(国内不多)
  3. 在YARN

练习Spark入门的话,就用Local模式,就可以了。

3.入门案例

3.1 Word Count

在这里插入图片描述
打开Spark-shell ,准备文件。并输入以上程序。

查看结果:
浏览器中输入地址:主机ip:4040(端口号4040)

3.2 集群角色

3.2.1 Master和Worker

Master资源调度中的Leader,类似YARN中的ResourceManager
Worker资源调度中的Fllower,类似YARN中的NodeManager

3.2.2 Driver和Worker

总结:Master和Worker是Spark的守护进程,即Spark在特定模式下正常运行所必须的进程。Driver和Executor是临时程序,当有具体任务提交到Spark集群才会开启的程序。

评论 1 您还未登录,请先 登录 后发表或查看评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:书香水墨 设计师:CSDN官方博客 返回首页

打赏作者

小码上线

坚持原创,原创动力。

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值