从 SFTP 上下载 80W 数据并解析入库

最新推荐文章于 2022-10-20 14:03:39 发布

空乏其身

最新推荐文章于 2022-10-20 14:03:39 发布

阅读量559

点赞数 1

分类专栏： IO 文章标签： SFTP IO Oracle Jstat 集合

本文链接：https://blog.csdn.net/qq_38887189/article/details/87906205

版权

IO 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

                    
                    需求
 
 从 SFTP 上下载并解析文本内容为 80W 行的数据并解析入库。
 
我的实现
 
 将 80W 数据直接使用 IO 读取到 List 中，然后遍历解析数据，入库。
 
问题1
 
 使用 IO 直接将文本数据读取到 List 中，出现内存溢出、gc问题等。
 
解决方法
 
 不直接获取 80W 数据，而是批量读取数据，然后解析入库，依次循环着解析入库。
每次解析 3000 条数据，这样一来，就不会导致内存溢出。
 
问题2
 
 成功一批一批的将数据读取出来后，解析时，又出现了问题，因为 for 循环过多，使用 top 查看进程占 CPU 近 300% 多，是吓到我了！！！
这其中，我预计有 4-5 个 for 循环嵌套，以及 1000 条批量查询 Oracle，1000 条批量插入 Oracle 代码块。
 
解决方法
 
 将 for 循环用 Map 替代，这样一来，就不需要 for 循环嵌套着去：去重、比对等操作。直接借助 Map.containsKey 方法就可以判断是否存在。大大提高了效率。
 
问题3
 
 使用 jstat -gcutil PID 查看频率（1000ms），发现 S0,S1 堆区并没有回收对象，E 堆区的占用则为 99.99% 一直并未减少。一直这样的话，也会造成堆内存溢出。
 
解决方法
 
 将代码中的对象进行清理，我发现代码中有大量的对象在“List”、“Map”中没有清理，所以在每次“集合”使用完毕后，将数据进行 clear 操作；这样操作后，E区 明显得到了优化，“S0,S1”也会在 E堆 达到 100% 时，对 “E堆”中的对象进行清理。
 
做过的优化
 
 数据库表索引的创建，会提高至少一倍的搜索效率。最好不用使用“时间”字段加索引并作为条件获取数据，很慢很慢。（极大可能是我SQL问题导致）
数据库建立“临时表”，这样去重可以直接使用 SQL 将“临时表”与“主表”进行数据去重。
插入 Oracle 数据时，由每次“1000”减少到每次“500”。
查询 Oracle 数据时，由每次“1000”减少到每次“500”。
 
总结
 
 能用 Map 替代 List ，坚决不用 List；
SQL 能达到最优就必须最优，不管是“索引”，还是函数，都必须上！
对任何系统外接服务进行操作时，务必不能挑战其极限；比如“Oracle 批量查询，我测得是 1000 条是极限，同事说可以修改配置提示数据量”，但是最好不要 1000 的去获取，这样一来资源全被占用，会导致系统出现问题，严重会导致系统假死。

空乏其身

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从 SFTP 上下载 80W 数据并解析入库

需求从 SFTP 上下载并解析文本内容为 80W 行的数据并解析入库。我的实现将 80W 数据直接使用 IO 读取到 List 中，然后遍历解析数据，入库。问题1使用 IO 直接将文本数据读取到 List 中，出现内存溢出、gc问题等。解决方法不直接获取 80W 数据，而是批量读取数据，然后解析入库，依次循环着解析入库。每次解析 3000...
复制链接

扫一扫