Java实现Spark读取HBase中数据并转成DataFrame

最新推荐文章于 2023-03-13 15:28:56 发布

冬哥不是东哥

最新推荐文章于 2023-03-13 15:28:56 发布

阅读量1.9k

点赞数 1

文章标签： Java HBase Spark DataFrame DataSet

本文链接：https://blog.csdn.net/u014736152/article/details/89491806

版权

本文展示了如何使用Java编程，通过Spark从HBase数据库中读取数据，并将其转换为DataFrame。提供了所需的依赖包引入及核心功能代码示例，最后给出了运行结果的简单展示。

摘要由CSDN通过智能技术生成

我测试用的HBase数据：

话不多说上代码

所有需要的包：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableInputFormat;
import org.apache.hadoop.hbase.protobuf.ProtobufUtil;
import org.apache.hadoop.hbase.protobuf.generated.ClientProtos;
import org.apache.hadoop.hbase.util.Base64;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import scala.Tuple2;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;

功能代码：