查看这个文件中有多少块
看文件信息
hadoop fsck /user/filename
更详细的
hadoop fsck /user/filename -files -blocks -locations -racks
-files 文件分块信息,
-blocks 在带-files参数后才显示block信息
-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置,
-racks 在带-files参数后显示机架位置
hive 分区表要注意如果分区维度太小。是的每个分区只有几条数据,那这几条数据会被存在一个文件里,也是单独的一个hdfs 块。如果这个分区超过129m(当hdfs块为128m时) hive 表的这个分区默认会存在两个块里。 分区需谨慎,这样不仅加重了namenode 的负担,也不利于查询统计
sqoop 如果sqoop 每次导入只有几M,那么这几m 也是单独的一个块. sqoop 好像没有合并命令,目前解决方法只能 hive insert overwrite 表名 select* from 表名