多线程读取重复数据入库java_Java 多线程并发运用：解析单个大文件入库

最新推荐文章于 2024-07-09 20:10:18 发布

weixin_39905695

最新推荐文章于 2024-07-09 20:10:18 发布

阅读量910

点赞数

文章标签：多线程读取重复数据入库java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39905695/article/details/111815674

版权

本文探讨了如何高效地解析和入库大CSV文件。通过对比不同读取和解析策略，如单线程普通IO、按块读取和逐行读取，发现普通IO在大文件处理上效率低下。提出多线程解析大文件的思路，即将文件切分成小块，每个线程处理一部分，以提高解析效率。同时，文章指出了内存映射文件在多线程解析中的可行性。

摘要由CSDN通过智能技术生成

背景

上周在博客园看到一篇名为《多线程并发解析单个大文件，1800 万数据 8 线程 5 分钟入库》的文章，虽然内容全是代码，但全文分析下来还是有所收获的，文中用递归拆分大文件，交由多线程解析的思路值得细究。

“ 如何快速对 1GB 级别的 CSV 文件进行解析并入库？” 这是个不错的话题，记得以前为了查看一个大日志文件，专门下载了 Logviewer 软件才勉强能看，普通文件编辑软件都没办法查看的文件，怎么能高效解析呢？

受此文启发，这里来探究下这个问题。

普通 IO 读取大文件存在的问题

1、编写一个生成指定大小的文件的工具类 BigFileGenerator ，运行它得到一个 2G 的 CSV 文件，文件中的每一行代表一条 web 请求访问信息，结果发现 Java 写文件还是挺快的，运行结果：

total line:22808227

cost :46(s)

2、创建一个工具类 BigFileReader ，编写一个使用 FileInputStream 、按块读、每次读取 64MB 数据的方法 readByBlock ，只读不处理，总耗时 8.6 分钟：

3、编写一个使用 BufferedReader 逐行读取的方法 readByLine，只读数据、不解析，操作总耗时十分半：

4、编写一个使用 BufferedReader 逐行读取、并解析入库的方法 readByLineAndParse，使

最低0.47元/天解锁文章

weixin_39905695

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
多线程读取重复数据入库java_Java 多线程并发运用：解析单个大文件入库

背景上周在博客园看到一篇名为《多线程并发解析单个大文件，1800 万数据 8 线程 5 分钟入库》的文章，虽然内容全是代码，但全文分析下来还是有所收获的，文中用递归拆分大文件，交由多线程解析的思路值得细究。“ 如何快速对 1GB 级别的 CSV 文件进行解析并入库？” 这是个不错的话题，记得以前为了查看一个大日志文件，专门下载了 Logviewer 软件才勉强能看，普通文件编辑软件都没办法查看的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。