大数据学习笔记（七）-运行spark脚本【原创】

最新推荐文章于 2023-01-02 19:35:50 发布

suifeng201

最新推荐文章于 2023-01-02 19:35:50 发布

阅读量181

点赞数

分类专栏：大数据文章标签： spark shell scala

本文链接：https://blog.csdn.net/suifeng201/article/details/84881055

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在启动了hadoop 和 spark之后，就可以运行spark 脚本环境，在其上可以运行scala脚本。

1. cd $SPARK_HOME/bin
2. master=spark://master.hadoop.zjportdns.gov.cn ./spark-shell
然后就可以运行脚本了


   scala> val a = sc.parallelize(1 to 9, 3)
   a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
   scala> val b = a.map(x => x*2)
   b: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1] at map at <console>:26
   scala> a.collect
   res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
   scala> b.collect
   res1: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

[img]http://dl2.iteye.com/upload/attachment/0124/1663/2bc44c9c-9be7-3522-9467-095ffd70a78b.png[/img]
3. 可以对hdfs文件进行分析
[img]http://dl2.iteye.com/upload/attachment/0124/1681/5bec2ecc-172f-3a6f-a2fc-8adb73ad87c1.png[/img]

然后就可以愉快的进行大数据分析了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

suifeng201

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据学习笔记（七）-运行spark脚本【原创】

在启动了hadoop 和 spark之后，就可以运行spark 脚本环境，在其上可以运行scala脚本。1. cd $SPARK_HOME/bin2. master=spark://master.hadoop.zjportdns.gov.cn ./spark-shell然后就可以运行脚本了[code="java"] scala> val a = sc.parall...
复制链接

扫一扫