【spark】编程代码，随笔记录

最新推荐文章于 2022-06-13 21:57:54 发布

搬砖快乐～

最新推荐文章于 2022-06-13 21:57:54 发布

阅读量313

点赞数

分类专栏： spark 文章标签： spark 编程

本文链接：https://blog.csdn.net/demon_LL/article/details/78257419

版权

8 篇文章 0 订阅

订阅专栏

spark-yarn模式
–master yarn-cluster
（只需在spark-submit执行时，添加参数）
速度慢：
提升cores数（提升并行执行的task）；
使用spark-rdd，textFile基于本地系统，linux系统，路径格式简介：
//hdfs单个文件夹 val onePath = "hdfs://100.38.101.2:9000//log/month=01/new1.txt" //hdfs下所有的month文件夹下的所有txt文件（使用通配符*表示） val monAllPath = "hdfs://100.38.101.2:9000//log/month=*/*.txt" // hdfs两个文件夹month为10/09下的所有txt文件（使用","隔开） val morePath="hdfs://100.38.101.2:9000//log/month=10/*.txt,hdfs://100.38.101.2:9000//log/month=09/*.txt" //读取本地文件 val localPath = "D:/zling/test.txt" //读取linux系统下文件 val liPath = "/root/zling/test.txt" //读取路径下的文件 sc.textFile(onePath).map(line => {})