![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
文章平均质量分 85
实实在在的spark知识,耗费很多精力实践的总结
我先森
资深大数据开发工程师,在游戏领域,工业领域,以及数字化领域负责过分布式计算大型框架底层研发,对分布式计算有一定见解。
展开
-
spark.07 yarn 开启动态资源分配
将spark安装包中的spark--yarn-shuffle.jar 放在集群中每个节点的classpath中。不需要指定并发,只需要指定内存, 程序在运行后会动态调节并发数量,我们只需要设置一个上线即可。yarn-site.xml 增加。准备shuffer jar。原创 2023-08-16 18:10:44 · 508 阅读 · 0 评论 -
spark6. 如何设置spark 日志
本文只讲解再yarn 模式下的日志配置。原创 2023-09-13 16:04:19 · 1236 阅读 · 0 评论 -
5. spark 参数问题
命令行传递参数,有一些快捷方式,比如 --driver-memory 类似的参数, 其实这只是对特别常用的参数做了额外的精简化, 除此之外还有另一种最底层的传递方式那就是 --conf k=v。支持的参数可以在本文最上方的连接处找到。动态加载参数,意思就是通过命令行动态的为程序设置运行参数,这也是最为灵活的一种。也是开发中最常见的,一般需要以下两个步骤。, 对于一常用的参数可以放在配置文件,对于一些个性化参数则通过 命令行传递比较好。注意我的集群用的是9000端口,你可能用的是8020。原创 2023-09-11 15:13:11 · 346 阅读 · 2 评论 -
spark.4 yarn
spark yarn2.spark application载入yarn的方式3.— —master说明4.载入集群的命令5.注意事项6.准备工作确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录。这些配置用于写HDFS和连接YARN ResourceManager。该目录中包含的配置将被分发到YARN集群,以便应用程序使用的所有容器都使用相同的配置。如果配置引用Java系统属性或不受YARN管理的环境变量,它们也应该在Spark应用程序的配置中进原创 2021-08-20 17:09:18 · 350 阅读 · 0 评论 -
spark.2 sql学习
摘要:真正理解DataFrame/DataSet Spark Sql原创 2020-10-23 14:17:31 · 293 阅读 · 1 评论 -
spark.3 rdd算子
摘要关于spark一些概念的知识见另外一篇博文,这一篇章之说一些算子。一:join 会进行shufferjoin 用于将<k,v>键值对的算子进行连接操作,最后生成两个rdd算子共同拥有key的数据结构。方法的定义:def join[W](other: RDD[ (K,V)] ):RDD[ (K , (V1,V2) ) ]val thisRDD=sc.makeRDD( Array(("A","1"),("A","2"),("B","2"),("B","4")("C"...原创 2020-10-19 16:13:19 · 269 阅读 · 1 评论 -
spark.1 rdd 分区 宽依赖 窄依赖 stage job
RDD:rdd是是不可更改的,分区的,可并行执行的分布式数据集。partition是rdd的重要概念也可以说rdd是一组分区数据组成的,而不同的分区可以发送到不同的节点上并行执行,rdd的概念造是数据能够并行执行的基础。...原创 2020-10-18 14:16:05 · 972 阅读 · 0 评论