大数据
大数据之非常详细Spark SQL操作Hive的读写过程
大数据目录
一、Spark SQL架构和原理
1.shark和hive关系
Hive是Shark的前身
2.Hive的两种功能
2.1 作为数据仓库提供存储功能
Hive的元数据,如库、表等结构信息,均由Hive自身来维护,但数据本身存储在HDFS集群中
2.2 作为查询引擎提供检索查询功能
3.Hive的查询功能如下
1、将HQL翻译成MR代码。
2、将job打成jar包并发送到Hadoop集群中运行
二、Spark SQL操作Hive的方法
1.SparkSQL访问Hive仓库
在Spark安装目录中的conf目录下,添加hive配置文件
cd /opt/module/spark-2.1.1/conf
vi hive-site.xml
2.启动服务
在MySQL安装节点(slave001)启动MySQL服务:
systemctl start mysqld.service
启动Hive元数据服务,并验证Hive是否可用
启动命令如下
nohup hive --service metastore &>metastore.log&
3.启动Hadoop集群
4.启动SQL
三、通过Spark SQL查询表中的数据
在hive中创建库test,表stu,并加载数据;然后通过Spark SQL查询表stu中的数据。
1.创建数据库test
查看一下是否创建出了test数据库
2.创建表stu
查看是否创建表成功
3.插入数据
查看是否插入成功
4.Spark连接Hive读写数据
利用spark-shell切换到终端窗口
显示数据库
查询数据
总结
以上就是今天要讲的内容,本文仅仅简单介绍了大数据之非常详细Spark SQL操作Hive的读写过程,结合以上步骤和书中内容相信你也可以的,加油。