大数据--Hadoop环境部署(5)Hive部署

Hadoop集群部署:https://www.cnblogs.com/Studywith/p/16948866.html

一.Hive的三种部署模式

1.嵌入模式
使用内嵌的Derby数据库存储元数据,是Hive最简单的部署方式。嵌入模式下的Hive不支持多会话连接,不适合生产环境,只适合测试环境。
2.本地模式
使用本地独立数据库存储元数据,这里的独立数据库通常使用MySQL数据库。本地模式部署的Hive支持元数据共享,并且支持多会话连接。
3.远程模式
远程模式与本地模式一样,同样是使用独立数据库存储元数据。不同的是,远程模式使用的是远端的独立数据库,而本地模式使用的是本地独立数据库。远程模式主要应用于Hive客户端较多的情况。

二.嵌入模式

1.下载安装包+上传+解压

官网:https://dlcdn.apache.org/hive/

这里下载的是apache-hive-2.3.9-bin.tar.gz,上传到node01的/export/software/,解压到/export/servers/

tar -zxvf /export/software/apache-hive-2.3.9-bin.tar.gz -C /export/servers/

2.系统环境变量

便于在各个文件夹下可以直接调用Hive

vim /etc/profile

HIVE_HOME=/export/servers/apache-hive-2.3.9-bin
PATH=$PATH:$HIVE_HOME/bin
export HIVE_HOME PATH

source /etc/profile

3.Hive配置文件

参考:https://blog.csdn.net/QYHuiiQ/article/details/124157773

(1)hive-env.sh

cd /export/servers/apache-hive-2.3.9-bin/conf
cp hive-env.sh.template hive-env.sh
vim hive-env.sh

export HIVE_CONF_DIR=/export/servers/apache-hive-2.3.9-bin/conf
export JAVA_HOME=/export/servers/jdk1.8.0_161
export HADOOP_HOME=/export/servers/hadoop-2.7.4
export HIVE_AUX_JARS_PATH=/export/servers/apache-hive-2.3.9-bin/lib

(2)hive-site.xml

cp hive-default.xml.template hive-site.xml
vim hive-site.xml

(命令的意思就是全文查找对应符号,将符号替换为指定符号)
#1.将${system:java.io.tmpdir}替换为我们的tmp目录(iotmp,该目录会自动创建)。直接在当前模式下输入以下命令即可替换,不需要切换为insert模式

:%s#${system:java.io.tmpdir}#/export/servers/apache-hive-2.3.9-bin/iotmp#g

#执行完之后,会提示我们替换了4个地方。
 

#2.再将系统用户名替换为root

:%s/${system:user.name}/root#g

#执行完之后提示我们修改了3个地方。

image

image

4.初始化 Derby

在启动Hive之前需要在Hive的安装目录下进行初始化Derby数据库的操作,出现“schemaTool completed”信息,则证明成功初始化Derby数据库。

cd /export/servers/apache-hive-2.3.9-bin/
bin/schematool -initSchema -dbType derby

image

5.启动Hadoop

必须先启动Hadoop再启动Hive

#node01,02,03分别依次执行(具体见上文Hadoop执行)
zkServer.sh start
zkServer.sh status
hadoop-daemon.sh start journalnode

#node01执行
start-dfs.sh
start-yarn.sh

#完成后分别执行jps查看启动情况

node01

image

node02

image

node03

image

6.启动Hive客户端工具

执行“hive”命令启动Hive客户端工具HiveCLI。可以执行“quit;”命令退出Hive客户端工具HiveCLI,此时在Hive安装目录下会默认生成文件derby.log和文件夹metastore_db。

image

另外两种待更新~

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是基于大数据技术与原理的Hive部署与应用的实验步骤。 1. 环境搭建 - 操作系统选择:我们建议使用Linux系统,如Ubuntu或CentOS等。 - 安装Java:HadoopHive都需要Java环境,所以需要先安装Java。 - 安装HadoopHive是基于Hadoop技术的,因此需要先安装Hadoop。 - 安装Hive:下载Hive安装包,解压到指定目录,配置环境变量。 2. HiveQL语言与基本操作 - HiveQL语言简介:HiveQL是类似于SQL的查询语言,可以通过HiveQL查询Hive中的数据。 - 建立表格:使用CREATE TABLE语句创建表格,并定义表格的字段、数据类型和分隔符等。 - 查询数据:使用SELECT语句查询数据,并可以使用WHERE、GROUP BY、HAVING和ORDER BY等关键字进行数据筛选和排序。 - 数据的导入和导出:使用LOAD DATA和INSERT INTO语句将数据导入到表格中,使用INSERT OVERWRITE语句将表格中的数据导出。 3. 高级Hive操作 - 分区表:使用CREATE TABLE语句创建分区表格,并定义分区字段,可以提高查询效率。 - Hive内置函数:Hive提供了许多内置函数,如数学函数、字符串函数、日期函数等,可以方便地进行数据处理。 - UDF函数:Hive还支持用户自定义函数(UDF),可以根据实际需求编写自己的函数。 - 数据倾斜问题的解决:在处理大数据时,可能会出现数据倾斜的情况,可以通过调整数据分布、增加Reducer数量等方式解决。 4. Hive优化 - Hive优化的原则:Hive优化的原则是尽量减少数据的IO操作和网络传输,提高查询效率。 - 数据压缩:可以使用压缩算法对数据进行压缩,减少IO操作和网络传输。 - 数据倾斜问题的解决:通过调整数据分布、增加Reducer数量等方式解决。 - 数据分区:使用分区表格,可以将数据分成多个小块,提高查询效率。 5. Hive的应用场景 - OLAP分析:Hive可以用于OLAP分析,如数据仓库的构建和数据分析等。 - 日志分析:Hive可以用于对大量日志数据进行分析,如用户行为分析、错误分析等。 - 推荐系统:Hive可以用于推荐系统的构建和数据分析。 6. 实验结果及分析:根据具体的实验设计,进行实验并记录数据和结果,对数据进行分析和解释。 7. 总结:总结实验的目的、方法、结果和结论,提出下一步的改进方向和建议。 希望以上步骤可以帮助您完成Hive部署与应用实验。如有任何问题,请随时告诉我。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值