scala
QAQ_666666
一个什么都不会的程序员
展开
-
hadoop 查看hdfs文件夹用了多少G
记录一下工作中使用的查看hadoop hdfs的目录大小命令原创 2022-06-15 14:20:59 · 1073 阅读 · 0 评论 -
scala spark读取大文件csv太慢以及优化方案。
最近的业务场景中,spark要读取 1个30G的 csv文件,生成RDD后做运算,光这一个 parse 就用了1个半小时,太慢了,后来请大佬帮我优化,我们统计时间发现 ,spark 读取这个csv 竟然用了 30分钟,太慢了。而且后面跑运算的时候,一直是3个分区在跑,我们推测读取文件的时候 partition 少了。关于spark 优化,网上有很多,我这里只把我这次的优化记录下来 ,希望能帮助新人。老的读取csv,生成RDD的代码如下(这一部分读取文件生成RDD就用了30分钟):val csv原创 2020-11-27 09:46:46 · 3481 阅读 · 2 评论 -
scala 调用shell命令,通配符不起作用
最近遇到个问题查了我几个小时,百度根本没有信息,然后我google 了好久 终于 解决了,所以写下来帮助后来人。话不多说 直接 给代码。例如: cp outputPath/* backPathdef main(args: Array[String]): Unit = { val outputPath = args(0) val bakPath = args(1) import sys.process._ Seq("sh","-c","cp "+outputP.原创 2020-09-15 16:56:53 · 422 阅读 · 1 评论 -
scala 正则表达式简单的获取固定格式的日期
项目中经常有 XXXXX_yyyy-MM-dd.csv 这种文件,然后 每次都用的 截取,突然出现一个XXXXX_yyyy-MM-dd(1).csv 这样的文件 致使程序报错,于是 改了下用正则获取时间 。 由于已经确定 了 时间格式 并且不用判断时间是否正确 所以这个正则无比简单。 val testDateR = "\\d{4}-\\d{2}-\\d{2}".r val testDate = "testFile_2020-07-14(1).csv" val testRes.原创 2020-07-22 15:40:42 · 813 阅读 · 0 评论 -
scala英文格式的日期转为标准格式
DateTimeFormat.forPattern("ddMMMyyyy").withLocale(Locale.ENGLISH).parseDateTime("17Jan2022").toString("yyyyMMdd")用的 joda 日期工具 ,感觉蛮好用的,maven 引用: <dependency> <groupId>joda-time</groupId> <artifactId&g...原创 2020-07-22 14:52:51 · 263 阅读 · 0 评论 -
scala 字符串首字母大写,非截取。
有一个 数组 数组里面放的都是 用下划线分割的单词 :def testArray: Array[(String, String)] = Array("product_org1_a", "product_org2_b","product_org3_c", "product_org4_d")现在 要把里面的 每个单词变成 驼峰命名的单词 比如 product_org1_a => ProductOrg1A网上的写法全是 截取啊 然后拼接啊。 自己瞎琢磨了很久终于让我琢磨出来了一个最优雅的..原创 2020-07-08 19:26:03 · 1385 阅读 · 0 评论