spark安装

最新推荐文章于 2024-08-12 08:52:51 发布

hua_jing

最新推荐文章于 2024-08-12 08:52:51 发布

阅读量148

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/hua_jing/article/details/80825597

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

官方文档

http://spark.apache.org/docs/latest/

一、本地运行spark

jdk8+，scala2.1
- scala的安装https://blog.csdn.net/a123demi/article/details/70214575
下载spark，如：spark-2.2.0-bin-hadoop2.7.tgz
解压：tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
测试运行：./bin/run-example SparkPi 10，依赖前提是jdk8+安装完成，可以看到完成pi的计算结果
./bin/spark-shell –master local[2]，启动spark的命令交互式窗口，用于学习saprk的功能
- master有：local、yarn、spark://ip:port、mesos

二、集群运行spark

配置文件：conf/spark-env.sh
启动spark的服务：/sbin/start-all.sh
- master上执行jps:Master
- slave上执行jps:Worker
使用hdfs和yarn要启动hadoop的服务
- startdfs 启动hdfs
- startyarn 启动yarn
master上jps查看到的结果为：

3136 NameNode
3312 SecondaryNameNode
3417 Jps
2969 Master

slave上jps查看到的结果为：

2755 Jps
2681 DataNode
2573 Worker

webUI
job:http://ip:4040
spark:http://ip:8080
-

spark-env.sh

JAVA_HOME=/mnt/hgfs/download/jdk1.8.0_141
HADOOP_CONF_DIR= $HADOOP_HOME/etc/hadoop

测试代码（idea开发环境使用spark读取hdfs数据）

val conf = new SparkConf().setAppName("TestSpark1").setMaster("spark://192.168.159.128:7077")
    val sc = new SparkContext(conf)
    val rdd = sc.textFile("hdfs://192.168.159.128:9000/new-hadoop/*.xl")
    rdd.map(_.trim).map(f=>(f, 1)).reduceByKey(_+_).map(f=>(f._1, f._2)).groupByKey().saveAsTextFile("hdfs://192.168.159.128:9000/result/" + System.currentTimeMillis())
    println(rdd.count())

hua_jing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark安装

官方文档http://spark.apache.org/docs/latest/配置spark下载spark，如：spark-2.2.0-bin-hadoop2.7.tgz解压：tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz测试运行：./bin/run-example SparkPi 10，依赖前提是jdk8+安装完成...
复制链接

扫一扫

专栏目录