spark
文章平均质量分 69
q495673918
这个作者很懒,什么都没留下…
展开
-
spark distinct实现原理
其中reduceByKey会引入shuffle。distinct算子包括3个步骤。原创 2022-08-29 10:57:48 · 514 阅读 · 0 评论 -
spark调优
目录1.官网硬件配置建议2.官网优化建议1.数据序列化优化2.确定内存消耗大小的方法3.结构优化4.gc优化1.度量GC的影响2.GC优化5.并行度设置6.reduce任务的内存使用7.广播变量8.数据局部性3.spark参数1.num-executors2.executor-memory3.executor-cores4.driver-memory5.spark.default.parallelism6.参数参考示例官网建议Hardware Provisioning - Spark 3.3.0 Docum原创 2022-06-27 15:46:24 · 821 阅读 · 0 评论 -
spark高可用集群搭建(stanalone)
目录1.环境准备2.配置文件3.服务启动4.验证5.测试大体和非可用的搭建方式差不多,不同的是多了zookeeper集群,用来帮助spark实现高可用worker1,worker2,worker3上面部署zookeeper集群修改spark-env.sh,添加以下内容 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=worker1:2181,worker2:21原创 2022-06-13 15:19:54 · 858 阅读 · 0 评论 -
spark非高可用集群搭建(stanalone)
一共4个节点,master1,worker1,worker2,worker3配置master1到worker1,worker2,worker3的免密登录Index of /dist/spark这里使用spark-3.1.3-bin-hadoop3.2这个版本wget https://archive.apache.org/dist/spark/spark-3.1.3/spark-3.1.3-bin-hadoop3.2.tgztar -xzvf spark-3.1.3-bin-hadoop3.2.tgz -C原创 2022-06-13 15:13:22 · 315 阅读 · 0 评论