一.配置hive-site.xml
将Hive配置文件hive-site.xml
拷贝到Spark配置目录
进入Spark配置目录,编辑Hive配置文件hive-site.xml
二.启动HDFS和Spark
启动Spark Shell
三. Spark读写Hive数据
创建SparkSession对象
执行HiveQL语句
导入本地数据到Hive表
将该文件数据导入表其他表中
四.查询Hive表数据
查询表student
的数据并显示到控制台,执行命令:spark.sql("SELECT * FROM student").show()
按性别分组统计平均年龄
创建表时指定存储格式
创建一个Hive表test
,数据存储格式设为Parquet
将数据帧数据写入Hive表
导入其他的类
将数据帧数据写入hive表,执行命令:studentDF.select("name", "age").write.mode(SaveMode.Overwrite).saveAsTable("test")
查询test
表数据,执行命令:spark.sql("select * from test").show()
导入HDFS数据到Hive表
创建Hive表student1
将该文件数据导入表student1
中
查看表student1
的内容
五.Hive客户端查看生成的hive表
查看三张表:分别是student与
student1
和test