通过spark-submit 提交任务到spark on yarn上
./spark-submit --class WordCount --master yarn --executor-memory 512M --total-executor-cores 2 /opt/sparkDemo-1.0-SNAPSHOT.jar
yarn模式下master 填yarn即可,spark会自行去从yarn的配置文件中获取yarn的地址
打开spark shell
进入到spark目录
打开 Python 版本的 Spark shell
bin/pyspark
打开 Scala版本的 Spark shell
bin/spark-shell
退出shell
按 Ctrl-D
spark 用户页面的地址
http://[ipaddress]:4040
Spark Context 的创建
SparkConf conf = new SparkConf().setAppName("wordCount");
JavaSparkContext sc = new JavaSparkContext(conf);
RDD的创建
对一个集合进行并行化
JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas", "i like pandas"));
从文件创建RDD
JavaRDD<String> lines = sc.textFile("file:///path/to/README.md");