在spark中将数据插入HIVE表
用spark导入到HIVE中效率较高
1 创建数据集的spark D啊他Frames:
TmpDF=spark.createDataFrame(RDD,schema)
这里schema是由StructFied函数定义的
2 将数据集的DataFrames格式映射到零时表:
TmpDF.createOrReplaceTempView('TmpData')
3 用spark sql语句将零时表的数据导入hive的tmp_table表中:
sqlContext.sql('insert overwrite table tmp_table select *from TmpData')
首先创建一个数据库
spark.sql('create database school')
可以通过show(sql语句)来查看创建的表
接着我在school数据库中创建了个student

本文介绍了如何在Spark中高效地将数据插入Hive表,包括创建DataFrame、创建临时视图、使用Spark SQL语句进行数据导入,以及如何处理Parquet文件。同时,还涉及到创建数据库、定义用户函数等操作。

最低0.47元/天 解锁文章
494

被折叠的 条评论
为什么被折叠?



