一.在IDEA中建立一个maven项目,然后在resource配置文件加入以下3个文件
hdfs-site.xml
core-site.xml
hbase-site.xml
二.HBase数据库的简单读取数据
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.{CellUtil,HBaseConfiguration}
importorg.apache.hadoop.hbase.client.Result
importorg.apache.hadoop.hbase.io.ImmutableBytesWritable
importorg.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf,SparkContext}
/**
* 使用SparkCore从HBase表中读取数据
*/
object ReadHBaseTableDataSpark {
/**
*DriverProgram
*/
defmain(args: Array[String]): Unit = {
/**
* 创建SparkContext
*/
// 1. 创建SparkConf,设置应用配置信息
val sparkConf = new SparkConf()
// 设置应用的名称,显示在UI上
.setAppName("SparkModule Application")
// 设置应用运行的模式,开发的时候设置为local[2]本地模式,如果是集群的话,需要修改,但是通常使用命令设置
.setMaster("local[2]")
// 2. 创建SparkContext上下文对象,用于读取数据和调度