- 博客(4)
- 收藏
- 关注
转载 Spark的UI优化详解
集群环境集群环境可以看到集群一个有280G内存,120核数,5个节点spark-submit --启动命令含义:spark-submit class cn.dmp.tools.Bzip2Parquet \类的main方法所在类 --master yarn --deploy-mode cluster \ 运行模式 --driver-me...
2019-08-26 17:53:08 724
原创 spark-submit脚本参数的设置
--driver-memory 2G --executor-memory 4G --executor-cores 1 --num-executors 60一共60个executor,每个executor,1个cores,4个G的memory,共使用资源:240G的memory,60个core--driver-memory 2G --executor-memory 8G --execu...
2019-08-21 10:39:57 455
转载 Hive--行转列(Lateral View explode())和列转行(collect_set() 去重)
一行转多行说明:lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产生一个支持别名表的虚拟表。1.行转列1.1 问题引入:如何将a b...
2019-08-09 09:39:15 514
原创 scala中groupBy用在partition前面还是后面
要求:根据id分组,并对utc进行排序 val conf = new SparkConf() .setAppName("flow") .setMaster("local[*]") .registerKryoClasses(Array[Class[_]](A.getClass, Trip.getClass, Line.getClass, Log.g...
2019-08-08 17:30:17 374
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人