merrily01
Talk is cheap 、show me the code .
展开
-
spark history server 本地路径
本地启spark history server,spark.history.fs.logDirectory除了可以设置为hdfs远程目录外,还可以设置为本地路径,如:./start-history-server.sh file:///home/te/maruilei/scripts/logs/tmp_log/原创 2021-06-09 14:38:51 · 749 阅读 · 0 评论 -
Spark启动HistoryServer
1.spark-defaults.conf中添加配置,开启eventLog并指定存放路径:spark.eventLog.enabled=truespark.eventLog.compress=truespark.eventLog.dir=hdfs://XXX:9000/spark_eventlog/2. $SPARK_HOME/sbin下,执行 ./start-history-server.sh 启动history-server:需要注意的是,start-history-server..原创 2021-02-02 21:32:03 · 2113 阅读 · 0 评论 -
京东Spark自研Remote Shuffle Service在大促中的应用实践
前言本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行各业的应用越来越广泛,Spark自UCBerkeley的AMP实验室诞生到如今3.0版本的发布,已有十年之久,俨然已经成为大数据计算领域名副其实的老将。虽经过不断的迭代和优化,Spark功能日趋成熟与完善,但在性能及稳定性方面,仍然还有很多可以提升的地方。Shuffle过程作为MapReduce编程模型的性能瓶颈,就是其中重点之一。我们希.转载 2021-01-19 20:42:21 · 1437 阅读 · 0 评论 -
IDEA中Spark源码接口或方法少实现类
1. 现象:举例说明如:SparkApplication # start方法,被多个类重写,但有时候点左侧overrides看实现状况时,可能会缺少某几个类的实现调用;2. 原因:比如缺少yarn或kubernetes具体类的实现,原因一般是因为Spark项目中module的引用出了问题;我的问题是因为总切换2.4和3.0版本,modules中各个模块同时引入了2.11和2.12版本,module引用冲突导致的;3. 解决办法:File -> Project..原创 2020-12-16 10:48:32 · 195 阅读 · 2 评论 -
spark打包命令
./dev/make-distribution.sh --name hadoop2.7.1 --tgz -Phadoop-2.7 -Psparkr -Phive -Phive-1.2 -Phive-thriftserver -Pyarn -Pkubernetes -DskipTests -Dmaven.test.skip=true原创 2020-11-24 17:02:30 · 232 阅读 · 0 评论 -
spark触发adaptive skewed join的例子code
1. 启动spark-shell,参数如下:spark-shell --conf spark.driver.allowMultipleContexts=true --conf spark.sql.adaptive.maxNumPostShufflePartitions=5 --conf spark.shuffle.statistics.verbose=true --conf spark.sql.adaptive.enabled=true --conf spark.sql.autoBroadcastJo原创 2020-11-18 23:34:29 · 387 阅读 · 0 评论 -
Spark Shuffle 例子
sc.parallelize(0 to 0xff, 100).map(i => (i ^ 2, i << 2, i & 2, i | 2)).repartition(100).count()原创 2020-11-09 14:41:09 · 201 阅读 · 0 评论 -
Spark On K8s Executor失败不删除(方便调试)
--conf spark.kubernetes.executor.deleteOnTermination=false原创 2020-08-10 17:09:27 · 492 阅读 · 0 评论 -
Spark编码格式校验,引包顺序
import顺序,空行以及格式:java.*scala.*第三方包按字母序如com.*org.*org.apache.spark.*原创 2020-07-28 11:32:51 · 211 阅读 · 0 评论 -
spark-sql显示表头header
spark-sql --hiveconf hive.cli.print.header=true原创 2020-05-25 18:40:52 · 4027 阅读 · 1 评论