代码优化
文章平均质量分 55
小钻风巡山
咸鱼即将翻身
展开
-
spark-sql 分区小文件合并
spark-sql执行任务小文件生成规则示例数据元数据 : {数据库名称:mydb, 表名称:t30, 字段列表: a int, b int c int}主数据: [1,4,2 ; 3,4,6 ; 4,6,7]1.使用spark-sql查询表数据 任务的task数与小文件数保持一致例如下图所示 : 表t30中保存的是主数据,其中有17个文件,每一个文件的大小都小于块大小(64M)启动spark任务 示例spa...原创 2020-09-11 16:01:14 · 2556 阅读 · 0 评论 -
自定义排序
1存入数据的时候,如果key为字符串,会自动根据key排序如果key不为字符串,使用手动排序的功能,代码如下List<Map.Entry<Long, String>> list = new ArrayList<Map.Entry<Long, String>>(map.entrySet());Collections.sort(list...原创 2018-09-29 14:47:56 · 110 阅读 · 0 评论 -
JAVA JSON流式解析
一次传入超大的JSON的数据(比如1G数据)到一个方法的内部,进行解析处理,很容易发生内存溢出,fastjson能流式的解析数据,比如1G的数据在获取传入方法内部之前先获取这1G的流,即每次只读取一点数据,依次去解析他的key-value,解析得到单个key:value之后,只将单个key:value传入方法内部,使用while循环读取流中的数据,读取一次传入方法解析,解析完成之后再读取流的下一个...原创 2018-11-12 14:28:51 · 7119 阅读 · 0 评论 -
内存分析
1.获取程序运行的id号 (jps)2.获取对应进程的dump.log文件jmap -dump:live,format=b,file=dump.log 23354 (这个命令最后面跟进程id即获取对应进程的dump文件)3.jdk自带分析工具目录<JDK_HOME>/bin/jvisualvm.exe 双...翻译 2019-01-22 11:14:30 · 163 阅读 · 0 评论