一.Spark简介
支持多种开发语言:Scala,Java,Python, R
涉及的领域
Spark Core数据的离线分析 -> MapReduce
Spark Streaming数据在在线分析 -> (实时处理) Strom
SparkSQL -> 功能上与Hive类似,性能上比Hive高
……
二.搭建Spark测试开发环境2.1.环境准备
系统: centos 6.5
上传解压;tar -xvf spark-1.5.0-bin-hadoop2.6.tgz
2.2.编辑配置文件
vi conf/spark-env.sh.template
加入SPARK_LOCAL_IP= 本机的ip地址
复制刚才的文件:
cp conf/spark-env.sh.template conf/spark-env.sh
2.3.启动
./bin/spark-shell --master=local
启动说明
Spark-shell (相当于driver),可以将代码发送集群运行,也可以在单机下运行进入到spark的安装目录
./bin/spark-shell --master=local 连接到本地服务,并使用单线程
./bin/spark-shell --master=local[n] 连接到本地服务,并使用n个单线程
./bin/spark-shell --master=local[*]连接到本地服务,*表示尽可能多得使用本地线程
./bin/spark-shell --master=集群地址 连接到spark集群当中spark://master的地址:7077
2.4.spark UI访问
ip:4040
如果在虚拟机之外访问不到,请关闭防火墙。
在排除此间错误时应确保虚拟机和宿主机能ping通。
2.5.退出:
用:q或Ctrl+c退出spark-shell