Java，Scala - 使用代码统计hadoop中hdfs的文件大小以及文件夹大小

最新推荐文章于 2023-06-07 13:18:22 发布

慢点走

最新推荐文章于 2023-06-07 13:18:22 发布

阅读量5.7k

点赞数 7

分类专栏：项目 # hdfs hadoop 文章标签： hdfs 文件大小数据总量 spark读取hdfs 代码

本文链接：https://blog.csdn.net/weixin_42845682/article/details/107099411

版权

文章目录

一些配置和前提说明
获取行数
- 使用FileSystem获取文件行数
- 使用spark获取hdfs 文件的条数
获取大小
额外说点hadoop fs -dus

      最近有一个需求，就是定时去统计，hdfs上的文件的大小和行数，也就是统计这段时间内新增的数据的条数和占用空间。
      举个例子：一天24小时，每6个小时统计一次，这6个小时内，新增了多少条数据，以及这些数据在hdfs上占用了多少空间。

一些配置和前提说明

hadoop的一些说明

在这里，假设hdfs上的文件没有任何压缩格式，且hdfs中的数据是整齐无缺损的，其中存在用来筛选的时间字段。
举个例子：

1	159298900	15
2	159298900	45
3	159298901	12
.......

这里的第一个字段和第三个字段不用管，第二个字段是表示数据的时间的，不过要注意，这个字段表示的是秒还是毫秒

代码的一些说明

      这里无论你是用java还是scala，都不影响。
      就我个人涉及到的知识面而言，无非就是java的FileSystem，以及spark的textFile。所以这个说明其实就是：如何用FileSystem或spark读取hdfs的数据。
      这个在这写太麻烦了，请看下面的链接：
      java 使用FileSystem读取hadoop文件
       使用spark读取hadoop文件的具体内容

pom.xml

<dependencies>
	<dependency>
	    <groupId>org.apache.hive</groupId>
	    <artifactId>hive-jdbc</artifactId>
	    <version>2.1.1</version>
	</dependency>
	
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-client</artifactId>
	    <version>3.0.0</version>
	</dependency>
	
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-common</artifactId>
	    <version>3.0.0</version>
	</dependency>
</dependencies>

获取行数

使用FileSystem获取文件行数

这种方法的步骤是：读取hadoop文件，统计行数，没啥难度。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URI;
import java.net.URISyntaxException;

public class testNewFile {
   

    public static void main(String[] args) throws URISyntaxException, IOException, InterruptedException {
   
        FileSystem fs=FileSystem.get(
            new