spark
文章平均质量分 87
peidezhi
这个作者很懒,什么都没留下…
展开
-
spark join 及优化
一 spark常用的join形式:1broadcast hash join (小表 大表 join)1.1)没有加hint, 满足如下条件,也会产生broadcast join: 1)被广播的表需要小于 spark.sql.autoBroadcastJoinThreshold 所配置的值,如果没有配置,则默认是10M。 2)被广播的表不能是基表,比如 left outer join 时,只能广播右表。 如果将 spark.sql.autoBroadc...原创 2021-04-14 20:59:01 · 2964 阅读 · 0 评论 -
yarn WEB UI及reserved memory、spark WEB UI
1 yarn web ui: Apps Submitted:已提交的应用 Apps Completed:已完成的应用 Apps Running:正在运行的应用 Containers Running:正在运行的容器 Memory Total:集群总内存 Memory Used:已使用内存 VCores Total:集群 CPU 总核数 VCores Used:已使用的 CPU 核数 Memory Reserved:预..原创 2021-03-02 14:27:01 · 5071 阅读 · 1 评论 -
spark 参数配置及内存模型
1spark 提交主要参数1.1 num-executors此数量代表 spark的executors数量, 所有的task在executor中运行。1.2 executor-cores此数值代表每个 executor中可以并行运行的task数。 一般一个任务使用1核,此值等同于1个executor占用的CPU核心数。1.3 executor-memory此参数指定了每个 executor占用的内存。注: 即使是executor-cores=4,并行运算的4个...原创 2020-06-11 12:23:03 · 6715 阅读 · 0 评论