用spark统计hbase表格数据,可以节省大量时间(本来需要几个小时,利用spark只需十几分钟),不愿意打jar包使用spark-submit进行统计,可以使用spark-shell,具体步骤如下:
(1)启动spark-shell:
${spark}/bin/spark-shell
(2)输入以下命令:
sc.stop
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.client.HBaseAdmin
import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.spark._
val sparkConf = new SparkConf().setAppName("HbaseCount")
sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSe