HDFS实际应用场景之文件合并

最新推荐文章于 2024-04-09 17:19:14 发布

会飞起来的小象

最新推荐文章于 2024-04-09 17:19:14 发布

阅读量1.2k

点赞数

分类专栏： Hdfs Hadoop 文章标签： hadoop Hdfs 计算机

本文链接：https://blog.csdn.net/Hukairan/article/details/50522927

版权

本文介绍了如何使用自定义PutMerge程序将多个小文件合并并上传到HDFS。内容包括使用`hadoop fs -getmerge`命令进行文件合并，以及在开发过程中遇到的错误，如IllegalArgumentException和输入输出流的关闭问题，以及解决这些问题的方法，如配置core-site.xml和hdfs-site.xml，并确保正确使用输入流和输出流。

摘要由CSDN通过智能技术生成

①场景：合并小文件存放到HDFS上，列如，当需要分析来自许多服务其的Apache日志时，各个日志文件可能比较小，然而Hadoop更合适处理大文件，效率会更高，此时就需要合并分散文件。如果先将所有文件合并，在复制上传到HDFS上的话，需要占用用本地计算机的大量磁盘空间。采取在向HDFS复制上传文件的过程中将小文件进行合并，效果会更好。
②开发程序

开发一个PutMerge程序，用于将合并文件后放入HDFS。
③命令getmerge
用于将一组HDFS文件在复制到本地计算机一起合并。
1）hadoop fs -put dataout1 daout daout6 /tmp
//将多个文件夹上同时传到HDFS /tmp目录下
2）hadoop fs -put trade_info.txt datain /sort1
//将trade_info.txt和datain文件同时上传到/sort1下
3）hadoop fs -getmerge /sort1 /root/yunfan1
//将这几个文件合并为一个文件
代码实现
文件的上传和下载就是字节字符流的读写操作。
读文件：输入流–>read
写文件：输出流 –>write
分析：
localFileSystem（本地）中的许多小文件上传到(合并)到HDFS
①本地每个文件打开输入流进行读取内容
②HDFS文件打开输出流，进行内容写入
③循环操作
④关闭流

public

最低0.47元/天解锁文章