Spark介绍
-----------------
快如闪电的通用分析引擎。
spark是快速通用计算引擎,支持语句java、scala、python、R。
spark内置模块spark-sql、mllib、streaming、graph。
[speed]
Spark在批处理和流计算有着更高性能,使用了DAG(direct acycle grapha)调度器,
查询优化器以及物理执行引擎。
使用spark和hadoop做逻辑回归实现,spark是hadoop的100x倍。
[易用性]
可以使用java、scala、python、R和SQL编写应用程序。
spark提供80+中高级算子,以便于方便构建并行应用。也可使用以上语言
进行交互式操作(shell)。
[通用性]
对SQL、流计算以及负责分析操作进行组合。
spark提供了五个模块,core,sql,streaming,mllib,graph
支持在同一应用中对以上各模块进行无缝整合。
[处处运行]
spark可以运行在hadoop,apache mesos,Kubernetes,standalone或者云上。
安装spark(local模式)
--------------------
1.下载tgz包
spark-2.1.0-bin-hadoop2.7.tgz
2.解压并创建软连接
$>tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz -C /soft
$>ln -s /soft/spark-2.1.0-bin-hadoop2.7 /soft/spark
3.配置环境变量
[/etc/profile]
...
#spark
export SPARK_HOME=/soft/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
4.生效环境变量
$>source /etc/profile
5.启动spark
启动spark-shell
6.查看webui界面