spark
QAQ_666666
一个什么都不会的程序员
展开
-
记录一篇如何查询数据倾斜的文章。
如何查询hadoop spark 任务是否发生了数据倾斜转载 2022-07-14 09:28:31 · 496 阅读 · 1 评论 -
hadoop 查看hdfs文件夹用了多少G
记录一下工作中使用的查看hadoop hdfs的目录大小命令原创 2022-06-15 14:20:59 · 1128 阅读 · 0 评论 -
scala spark RDD max
根据对象的日期属性,求出rdd 中最大日期的 那一个对象。val maxOrder = orderRDD.max()(Ordering[Date].on(d => { DateTimeFormat.forPattern(yyyy-MM-dd).parseDateTime(d.createDate).toDate}))搞定收工。原创 2020-12-16 14:05:01 · 564 阅读 · 0 评论 -
scala spark读取大文件csv太慢以及优化方案。
最近的业务场景中,spark要读取 1个30G的 csv文件,生成RDD后做运算,光这一个 parse 就用了1个半小时,太慢了,后来请大佬帮我优化,我们统计时间发现 ,spark 读取这个csv 竟然用了 30分钟,太慢了。而且后面跑运算的时候,一直是3个分区在跑,我们推测读取文件的时候 partition 少了。关于spark 优化,网上有很多,我这里只把我这次的优化记录下来 ,希望能帮助新人。老的读取csv,生成RDD的代码如下(这一部分读取文件生成RDD就用了30分钟):val csv原创 2020-11-27 09:46:46 · 3624 阅读 · 2 评论 -
scala spark2读取csv文件,并且处理后输出成.out文件
val sparkCfg = new SparkConf().set("spark.driver.maxResultSize", "0") sparkCfg.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") val sparkSession = SparkSession.builder() .appName(appCfg.getString("appName")) ....原创 2020-07-03 10:19:38 · 815 阅读 · 0 评论 -
hadoop 高版本winutils.exe下载地址
https://github.com/cdarlint/winutils原创 2020-06-22 14:40:23 · 8648 阅读 · 0 评论