大量csv数据的查询和计算的技术实现路径分析(2)-HDFS存储查询探讨2

最新推荐文章于 2024-08-26 17:15:00 发布

公众号【禅与大数据】，欢迎订阅

最新推荐文章于 2024-08-26 17:15:00 发布

阅读量603

点赞数

分类专栏： hadoop hdfs hbase csv 缓存文章标签： hadoop hdfs hbase csv 缓存

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cafebar123/article/details/80766503

版权

博客主要讨论了在HDFS中存储和查询大量CSV数据的挑战，提出了包括HDFS配置优化、网络IO和磁盘IO优化、缓存策略等方面的思考。针对随机查询、文件读取效率和缓存优化提出了具体方案，并分析了不同处理思路的优缺点，强调减少Block操作、Client与Data Node交互以提升读写效率的重要性。

摘要由CSDN通过智能技术生成

上一篇讲了java split的使用弊端，虽是字符串处理中一个很小的操作，不过却避不开。接下来，主要探讨HDFS存储查询方面的问题和解决思路。
随着每天的业务运作，每天会生成很多csv文件，目前csv文件存储在hdfs文件系统里面。在使用csv文件数据时，遇到一个问题:
如何高效查询HDFS中的csv数据？

基于HDFS文件系统的特性，笔者经由以前的探讨和一些资料，作了一些思考，如图：
hdfs存储查询的探讨

首先，这是一个复杂的问题。以笔者的能力水平，不能完全吃透它。那么，在笔者能实现的前提下，来分析一下哪些可以重点分析的。

第一，HDFS的配置优化。这个网络上相关的资料很多，hadoop官网上也有相关文档。所以，这里不提。

第二，网络IO，磁盘IO是比较关键的指标，HDFS的读写好坏是依赖于磁盘性能的，而且，hadoop通信，数据传输，网络IO第一关注点。具体的优化同上条，网络上有很多资料的。

第三，变量还是很多的。比如文件数量，文件平均大小，读写并发量等等。作为分布式存储系统，文件数量肯定很多。所以这里不提。实际上，根据笔者的看法，这里要分析的优化项有3点：

如何处理随机查询？
文件读取效率优化
缓存的优化

不同于互联网日志、流式数据，csv文件更像大块头。这些文

最低0.47元/天解锁文章

公众号【禅与大数据】，欢迎订阅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。