spark/scala常用语法

最新推荐文章于 2024-05-08 11:40:29 发布

骑单车的王小二

最新推荐文章于 2024-05-08 11:40:29 发布

阅读量1.3k

点赞数

分类专栏：常用工具计算机基础知识 spark 文章标签： intellij-idea spark scala

本文链接：https://blog.csdn.net/qq_36663518/article/details/121401507

版权

计算机基础知识同时被 3 个专栏收录

90 篇文章 0 订阅

订阅专栏

常用工具

48 篇文章 1 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

SparkContext

每一个Spark应用都是一个SparkContext实例，可以理解为一个SparkContext就是一个spark application的生命周期，一旦SparkContext创建之后，就可以用这个SparkContext来创建RDD、累加器、广播变量，并且可以通过SparkContext访问Spark的服务，运行任务。spark context设置内部服务，并建立与spark执行环境的连接。

spark.sparkContext.textFile(path)

textFile的参数是一个path,这个path可以是：

一个文件路径，这时候只装载指定的文件
一个目录路径，这时候只装载指定目录下面的所有文件（不包括子目录下面的文件）
通过通配符的形式加载多个文件或者加载多个目录下面的所有文件

RDD

https://zhuanlan.zhihu.com/p/129346816

rdd转list:
rdd2list=rdd.collect().toList
list转rdd:
list2rdd=sc.parallelize(rdd2list)

map/flatmap

https://blog.csdn.net/u010824591/article/details/50732996

reduceByKey和groupByKey

https://blog.csdn.net/u010476994/article/details/91406745

Idea打包：scala打成jar包

打开maven project，点击项目名称，先后双击clean和package，就会自动进行打包了。
打包完成后，进入项目的target中进行查看，选用对应jar包，即可在spark集群上执行。

conf常见参数设置

--conf spark.yarn.executor.memoryOverhead=10240  --conf spark.shuffle.io.numConnectionsPerPeer=5  --conf spark.driver.maxResultSize=30g --conf spark.kryoserializer.buffer.max=128m --conf spark.port.maxRetries=128

breakable

for循环外使用相当于break，循环内使用相当于continue

saveAsTextFile

应用时，首先应删除对应的文件夹

hadoop fs -rm -r 文件夹路径

https://blog.csdn.net/power0405hf/article/details/50596233

查看文件

hadoop fs -cat  文件路径 |more

保存到本地

hadoop fs -cat  文件路径/* >本地路径

spark获取hive表字段并保存

var savePath = "hdfs路径"
val sc: SparkContext = new SparkContext(new SparkConf())
sc.setLogLevel("WARN")
val sqlContext: HiveContext = new HiveContext(sc)
//获取实例，从hive表读取数据
var dataSql =
s"""
   sql语句
 """.stripMargin
val sentences=sqlContext.sql(dataSql).rdd.map(t=>t.getString(0))
// 保存数据
sentences.saveAsTextFile(savePath)

注：规范做法是和git相关联

骑单车的王小二

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark/scala常用语法

SparkContext每一个Spark应用都是一个SparkContext实例，可以理解为一个SparkContext就是一个spark application的生命周期，一旦SparkContext创建之后，就可以用这个SparkContext来创建RDD、累加器、广播变量，并且可以通过SparkContext访问Spark的服务，运行任务。spark context设置内部服务，并建立与spark执行环境的连接。spark.sparkContext.textFile(path)textFile的
复制链接

扫一扫

专栏目录