配置Spark SQL的数据源 与Hive表

一.配置hive-site.xml

将Hive配置文件hive-site.xml拷贝到Spark配置目录

进入Spark配置目录,编辑Hive配置文件hive-site.xml

 

二.启动HDFS和Spark

启动Spark Shell

三. Spark读写Hive数据

创建SparkSession对象 

执行HiveQL语句 

 导入本地数据到Hive表

将该文件数据导入表其他表中 

四.查询Hive表数据 

查询表student的数据并显示到控制台,执行命令:spark.sql("SELECT * FROM student").show()

 按性别分组统计平均年龄

创建表时指定存储格式 

创建一个Hive表test,数据存储格式设为Parquet

将数据帧数据写入Hive表

导入其他的类 

 

将数据帧数据写入hive表,执行命令:studentDF.select("name", "age").write.mode(SaveMode.Overwrite).saveAsTable("test") 

查询test表数据,执行命令:spark.sql("select * from test").show()

导入HDFS数据到Hive表 

 创建Hive表student1

将该文件数据导入表student1中 

 查看表student1的内容

五.Hive客户端查看生成的hive表 

查看三张表:分别是studentstudent1test

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值