简介Spark
1.Spark概述
1.1什么是Spark?
进入官网,看简介:http://spark.apache.org/
Apache Spark™ is a unified analytics engine for ==large-scale data processing. ==
Spark是一个处理大数据的分析引擎。
2.Spark的模块
四大模块:
SQL,流式数据处理(实时计算),机器学习,图计算。
3.Spark的特点
四个特点,一眼便知。
- 比Hadoop的MapReduce快110+。
- 易用,可以用Java, Python, R 和SQL
- 通用,处理不同类型的业务,几乎是一站式。处理四大模块。
- 兼容,可以独立运行,也可以运行在YARN,Mesos,Kubernetes。
可以从HDFS, HBase, Hive,MySql等中读/写取数据
2.Spark运行模式
2.1 单机模式
单机模式略过不提
2.2 集群模式
集群模式官网给出三种:
- 独立运行
- 在Mesos(国内不多)
- 在YARN
练习Spark入门的话,就用Local模式,就可以了。
3.入门案例
3.1 Word Count
打开Spark-shell ,准备文件。并输入以上程序。
查看结果:
浏览器中输入地址:主机ip:4040(端口号4040)
3.2 集群角色
3.2.1 Master和Worker
Master资源调度中的Leader,类似YARN中的ResourceManager
Worker资源调度中的Fllower,类似YARN中的NodeManager
3.2.2 Driver和Worker
总结:Master和Worker是Spark的守护进程,即Spark在特定模式下正常运行所必须的进程。Driver和Executor是临时程序,当有具体任务提交到Spark集群才会开启的程序。