hbase RowCounter 使用

最新推荐文章于 2021-08-24 10:37:42 发布

bupt041137

最新推荐文章于 2021-08-24 10:37:42 发布

阅读量2k

点赞数

分类专栏： hbase 文章标签：大数据 java

本文链接：https://blog.csdn.net/bupt041137/article/details/84489072

版权

hbase 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

hbase org.apache.hadoop.hbase.mapreduce.RowCounter tablename cf:cq

有同学说这个运行出来的结果不对，结果只有几十，而实际上应该有几百万。差别这么大，原因在哪里？

查看代码发现 RowCounter的代码片段

    scan.setFilter(new FirstKeyOnlyFilter());
    if (sb.length() > 0) {
      for (String columnName : sb.toString().trim().split(" ")) {
        String [] fields = columnName.split(":");
        if(fields.length == 1) {
          scan.addFamily(Bytes.toBytes(fields[0]));
        } else {
          scan.addColumn(Bytes.toBytes(fields[0]), Bytes.toBytes(fields[1]));
        }
      }
    }

这里的scan使用了FirstKeyOnlyFilter，又加上了column的限制。而FirstKeyOnlyFilter的原理是只返回整个row里面的第一个key/value，如果column不是row里面排在第一个的column，那么先会被FirstKeyOnlyFilter给屏蔽掉，然后在查看column，这样导致很多属于这个column的数据都被过滤掉，导致实际结果少很多。

bupt041137

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hbase RowCounter 使用

hbase org.apache.hadoop.hbase.mapreduce.RowCounter tablename cf:cq有同学说这个运行出来的结果不对，结果只有几十，而实际上应该有几百万。差别这么大，原因在哪里？查看代码发现 RowCounter的代码片段 scan.setFilter(new FirstKeyOnlyFilter()); if...
复制链接

扫一扫

专栏目录