Spark获取HBase海量数据方式之Scan

最新推荐文章于 2024-09-17 00:19:55 发布

神之凝视

最新推荐文章于 2024-09-17 00:19:55 发布

阅读量1.1k

点赞数 1

分类专栏： HBase Spark 大数据文章标签： hbase spark

本文链接：https://blog.csdn.net/qq_27600723/article/details/107188252

版权

本文介绍了Spark如何利用Scan获取HBase的海量数据。Scan类提供了灵活的配置选项，如设置起始和终止行、过滤器、时间戳限制等，以实现高效的数据扫描。通过限制扫描范围和选择性读取列族和列，可以充分利用HBase的列式存储优势，减少不必要的数据读取。

摘要由CSDN通过智能技术生成

一.简介

Scan扫描，类似于数据库系统中的游标，底层依赖顺序存储的数据结构。扫描操作的作用跟get()方式非常类似，但由于扫描操作的工作方式类似于迭代器，所以用户无需调用scan()方法创建实例，只需调用HTable的getScanner()方法【或者使用new Scan()】，此方法在返回真正的扫描器scanner实例的同时，用户也可以使用它的迭代来获取数据。如下：

ResultScanner getScanner(Scan scan) throws IOException
ResultScanner getScanner(byte[] family) throws IOException
ResultScanner getScanner(byte[] family, byte[] qualifier) throws IOException