hbase org.apache.hadoop.hbase.mapreduce.RowCounter tablename cf:cq
有同学说这个运行出来的结果不对,结果只有几十,而实际上应该有几百万。差别这么大,原因在哪里?
查看代码发现 RowCounter的代码片段
scan.setFilter(new FirstKeyOnlyFilter());
if (sb.length() > 0) {
for (String columnName : sb.toString().trim().split(" ")) {
String [] fields = columnName.split(":");
if(fields.length == 1) {
scan.addFamily(Bytes.toBytes(fields[0]));
} else {
scan.addColumn(Bytes.toBytes(fields[0]), Bytes.toBytes(fields[1]));
}
}
}
这里的scan使用了FirstKeyOnlyFilter,又加上了column的限制。而FirstKeyOnlyFilter的原理是只返回整个row里面的第一个key/value,如果column不是row里面排在第一个的column,那么先会被FirstKeyOnlyFilter给屏蔽掉,然后在查看column,这样导致很多属于这个column的数据都被过滤掉,导致实际结果少很多。