hadoop查看指定大小的表和表对应的分区数及小文件个数

我爱大芬

已于 2025-03-20 16:39:32 修改

阅读量87

点赞数 1

文章标签： hadoop 大数据分布式

于 2025-03-20 16:23:54 首次发布

本文链接：https://blog.csdn.net/qq_25264499/article/details/146400248

版权

查看表大小和分区数
hadoop fs -count -v /user/hive/warehouse/*/* | awk '$3 > (?*1073741824) {print $0}'           --查看大于 ?G的表 单位是 G 
举例:
hadoop fs -count -v /user/hive/warehouse/*/* | awk '$3 > (2*1073741824) {print $0}'           --查看大于 2G的表

hadoop fs -count -v /hive/warehouse/*/* | awk '$3 > (?*1099511627776) {print $0}'             --查看大于 ?T的表 单位是 T
举例: hadoop fs -count -v /user/hive/warehouse/*/* | awk '$3 > (2*1099511627776) {print $0}'  --查看大于 2T的表

结果:DIR_COUNT(代表分区)   FILE_COUNT(文件个数)       CONTENT_SIZE(文件大小字节)  PATHNAME(表名)

以人类可读的格式显示大小
hadoop fs -count -v /user/hive/warehouse/*/* | awk '$3 > (2*1099511627776) {print $0}' | xargs  hadoop fs -count -v -h

查看小文件个数
hadoop fs -ls -R /user/hive/warehouse/db/table/partitions | awk '$5 < ? {count++} END {print count}' --? 代表小文件大小