2019年08月_风是外衣衣衣

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载 Spark的UI优化详解

集群环境集群环境可以看到集群一个有280G内存，120核数，5个节点spark-submit --启动命令含义：spark-submit class cn.dmp.tools.Bzip2Parquet \类的main方法所在类 --master yarn --deploy-mode cluster \ 运行模式 --driver-me...

2019-08-26 17:53:08 724

原创 spark-submit脚本参数的设置

--driver-memory 2G --executor-memory 4G --executor-cores 1 --num-executors 60一共60个executor，每个executor,1个cores,4个G的memory，共使用资源：240G的memory,60个core--driver-memory 2G --executor-memory 8G --execu...

2019-08-21 10:39:57 455

转载 Hive--行转列（Lateral View explode()）和列转行（collect_set() 去重）

一行转多行说明：lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral view在把结果组合，产生一个支持别名表的虚拟表。1.行转列1.1 问题引入：如何将a b...

2019-08-09 09:39:15 514

原创 scala中groupBy用在partition前面还是后面

要求：根据id分组，并对utc进行排序 val conf = new SparkConf() .setAppName("flow") .setMaster("local[*]") .registerKryoClasses(Array[Class[_]](A.getClass, Trip.getClass, Line.getClass, Log.g...

2019-08-08 17:30:17 374

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人