HBase最佳实践 – Scan用法大观园

最新推荐文章于 2023-09-01 08:35:19 发布

码农老K

最新推荐文章于 2023-09-01 08:35:19 发布

阅读量123

点赞数

文章标签： java 面试大数据 python 编程语言

本文链接：https://blog.csdn.net/lvlei19911108/article/details/115752945

版权

本文深入探讨了HBase中Scan的三种常见用法：ScanAPI、TableScanMR和SnapshotScanMR，分析了它们的工作原理、最佳实践以及性能对比。ScanAPI适合少量数据扫描，TableScanMR通过MR实现并行化，适用于OLAP场景，而SnapshotScanMR通过客户端直接扫描HDFS，提供更高的效率。在数据量大的扫描场景中，SnapshotScanMR性能最佳。

摘要由CSDN通过智能技术生成

HBase从用法的角度来讲其实乏陈可善，所有更新插入删除基本一两个API就可以搞定，要说稍微有点复杂的话，Scan的用法可能会多一些说头。而且经过笔者观察，很多业务对Scan的用法可能存在一些误区(对于这些误区，笔者也会在下文指出)，因此有了本篇文章的写作动机。也算是Scan系列的其中一篇吧，后面对于Scan还会有一篇结合HDFS分析HBase数据读取在HDFS层面是怎么一个流程，敬请期待。

HBase中Scan从大的层面来看主要有三种常见用法：ScanAPI、TableScanMR以及SnapshotScanMR。三种用法的原理不尽相同，扫描效率也当然相差甚多，最重要的是这几种用法适用于不同的应用场景，业务需要根据自己的使用场景选择合适的扫描方式。接下来分别对这三种用法从工作原理、最佳实践两个层面进行解析，最后再纵向对三种用法进行一下对比，希望大家能够从用法层面对Scan有更多了解。

ScanAPI

scan客户端设计原理

最常见的scan用法，见官方API文档。scan的原理之前在多篇文章中都有提及，为了表述方便，有必要在此简单概述一番。HBase中scan并不像大家想象的一样直接发送一个命令过去，服务器就将满足扫描条件的所有数据一次性返回给客户端。而实际上它的工作原理如下图所示：