Spark 将csv文件自动化导入 hbase表

最新推荐文章于 2021-04-10 18:08:49 发布

一颗很菜的菜

最新推荐文章于 2021-04-10 18:08:49 发布

阅读量1k

点赞数

分类专栏： Spark 文章标签： Spark

本文链接：https://blog.csdn.net/true1cc/article/details/79160342

版权

本文介绍了如何利用Spark将CSV文件im.csv有效导入到HBase数据库中，详细阐述了整个过程并展示了Idea运行结果及导入后的HBase表状态。

摘要由CSDN通过智能技术生成

import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.mapreduce.Job;
import org.apache.spark.api.java.*;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * 此代码实现了根据csv文件提供的表头(列族：列)自动化建表(如果表不存在)以及向表中插入csv中的数据。
 * 注意1：有一个小 bug，就是表头它也会插入到 hbase表中，需要另行删除表头这一行
 * 注意2：spark是要先运行action算子才会运行transformation,也就是说 它会从先从 62行 跳到 112 行 再回来运行 62-112之间的代码
 */
public class SparkImToHBase {
    private static int flag;
    private static int exitTable;
    static