shell脚本——遍历hdfs所有.db仓库的所有表，判断有无数据

Varpb

已于 2022-01-20 21:07:04 修改

阅读量2k

点赞数

CC 4.0 BY-SA版权

分类专栏： shell命令文章标签： hdfs shell linux

于 2022-01-19 04:13:46 首次发布

本文链接：https://blog.csdn.net/fyq_sdut/article/details/122572593

shell命令专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一个用于检查HDFS中所有.db目录下各表是否有数据的Shell脚本实现。该脚本能够递归遍历指定路径下的所有库及表，并通过执行du命令来判断每个表是否包含数据，最后将结果输出到文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求

需求：递归遍历hdfs的warehouse下所有.db目录下的所有表，判断每张表有没有数据，并将结果输出到文件中

数据有无的判断：
du -s -h 表的结果为：0 0 则hdfs上无数据
其他为hdfs上有数据

思路

遍历warehouse得到所有库 hadoop fs -ls /user/hive/warehouse
再次遍历所有以.db结尾的库的所有表 hadoop fs -ls /user/hive/warehouse/库
对所有目录（表）进行du操作并根据结果判断有无数据，打印到文件中

shell脚本

 #! /bin/bash
 function read_dir(){
 for file1 in `hadoop fs -ls $1 | awk -F ' ' '{print $8}'` #注意此处这是两个反引号，表示运行系统命令
 do
  #echo $file1
  if echo "$file1" | grep -q -E '\.db$'   #如果是以.db为结尾的文件，那么进入循环
  then
	#echo '是以.db结尾的文件'
  	for file2 in `hadoop fs -ls $file1 | awk -F ' ' '{print $8}'` #遍历.db文件夹
		do
			#echo $file2
			#res3=`hadoop fs -du -s -h $file2`  #对目录调用hadoop语句
			file3=`hadoop fs -du -s -h $file2 | awk -F ' ' '{print $NF}'`
			siz=`hadoop fs -du -s -h $file2 | awk -F ' ' '{print $1}'`
			if [[ 0 -eq $siz ]]
				then
					echo "$file3 hdfs上无数据" >>  /root/temp/result_yhw.txt
				else
					echo "$file3 hdfs上有数据" >>  /root/temp/result_yhw.txt
			fi
		done
  else #如果不是，那么continue
		#echo '不是以.db结尾的文件'
		continue
  fi
 done
 } 
 #读取第一个参数
 read_dir $1