Spark的DataFrame、RDD写入到HBase的方法（Scala）

最新推荐文章于 2024-06-01 19:58:07 发布

EnterPine

最新推荐文章于 2024-06-01 19:58:07 发布

阅读量3k

点赞数 3

分类专栏： # HBase 大数据文章标签： RDD Dataframe Spark HBase 多列写入

本文链接：https://blog.csdn.net/EnterPine/article/details/86230635

版权

一、使用DataFrame.saveAsHadoopDataset(conn)方法。
特点：适合做批量的写入。优点为批量写入方便快捷。缺点对于数据量大的DF写入速度太慢。

val conn = new JobConf(HBaseConfigurationcreate())//设置HBase连接
conn.set(,)
conn.set(,)//设置Host和Port
conn.set(TableOutputFormat.OUTPUT_TABLE,“targetTableName”)//设置要插入到的HBase表名
conn.setOutputFormat()
df.rdd.map(x=>{
	val put  = new Put(Bytes.toBytes(x.getString(0)))  //参数为rowkey
	put.addColumn(Bytes.toBytes("columnFamilyname"),Bytes.toBytes("columnName1"),Bytes.toBytes("columnValue1")
	put.addColumn(Bytes.toBytes("columnFamilyname"),Bytes.toBytes("columnName2"),Bytes.toBytes("columnValue2")
	put.addColumn(Bytes.toBytes("columnFamilyname"),Bytes.toBytes("columnName3"),Bytes.toBytes("columnValue3")
	(new ImmutableBytesWritable, put)  //返回元组
}).saveAsHadoopDataset(conn) //存入HBase

二、使用HTable.put(Put)方法。
更可靠，使用数据量更小。


df.rdd.map(x => {

最低0.47元/天解锁文章

EnterPine

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Spark的DataFrame、RDD写入到HBase的方法（Scala）

一、使用DataFrame.saveAsHadoopDataset(conn)方法。特点：适合做批量的写入。优点为批量写入方便快捷。缺点对于数据量大的DF写入速度太慢。val conn = new JobConf(HBaseConfigurationcreate())//设置HBase连接conn.set(,)conn.set(,)//设置Host和Portconn.set(TableO...
复制链接

扫一扫

专栏目录