单机搭建基于Hadoop的Spark环境

最新推荐文章于 2024-08-07 22:17:24 发布

du00

最新推荐文章于 2024-08-07 22:17:24 发布

阅读量1.2k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/duh2so4/article/details/50276419

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

　　Spark是运行在yarn(也就是hadoop，一般特指资源管理器)上的应用，前面的一篇文章中已经搭好了yarn+hdfs，接下来的配置就很简单了。

从官网下载spark-binary
解压后重命名conf/spark-env.sh.template为conf/spark-env.sh
配置：添加一行类似于这样的HADOOP_CONF_DIR=~/tools/hadoop-2.6.2/etc/hadoop
以yarn-cluster模式提交一个测试任务（spark自带有一些例子，就不需要自己写了）

bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn-cluster  \
  --num-executors 1 \
  lib/spark-examples*.jar \
  10

更新 - 2015-12-19

以yarn-cluster模式不能直接看到结果，但是用yarn-client又会出错。从错误信息来看是（虚拟）内存超了，这个时候把driver内存设大一点即可。

bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn-client  \
  --num-executors 1 \
  --driver-memory 1g \
  lib/spark-examples*.jar \
  10

更新 - 2016-01-01

开启snappy压缩
重命名conf/spark-env.sh.template为conf/spark-env.sh，追加内容

HADOOP_HOME=~/tools/hadoop
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/
SPARK_LIBRARY_PATH=$HADOOP_HOME/lib/native

du00

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录