大数据开发教程——Apache Hive基础

Hive基础概念和用途

Hive是Hadoop下的顶级 Apache项目,早期的Hive开发工作始于2007年的 Facebook。
它可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。

Hive的主流版本

  • 选择任何技术的版本要考虑哪些方面:功能,稳定性,可维护性,兼容性…

  • 策略:要考虑不新不旧的稳定版本

  • 当前 Hive 的主流版本有两个:

  • hive-1.x,其中使用比较多的是hive-1.2.x的版本,最后一个稳定版本是hive-1.2.2,如果使用这个版本,你的hive将来没法集成spark。

  • hive-2.x,现行主流的hive使用版本,现行稳定的hive-2.x版本中的,我们选择使用hive-2.3.6

  • HDP(商业版大数据环境)2.6.3内置的hive为1.2.1

Hive集群构建

单机版本环境构建

  • 用途:测试,学习,快速使用
基本要求:启动hadoop
​
 1、上传安装包
apache-hive-2.3.6-bin.tar.gz
​
 2、解压安装包
tar -zxvf apache-hive-2.3.6-bin.tar.gz -C ../install/
​
3、进入到bin目录,运行hive脚本
cd apache-hive-2.3.6-bin/bin
./hive
​
4、测试使用
show databases;

集群版环境构建

基本要求:
  安装好hadoop和mysql(MySQL配置远程连接权限)
​
第1步:上传安装包
上传apache-hive-2.3.6-bin.tar.gz到服务器节点中。
​
第2步:解压安装包到对应的Hive安装目录中
tar -zxvf apache-hive-2.3.6-bin.tar.gz -C ../install/
​
第3步:创建配置文件 hive-site.xml
touch hive-site.xml
vi hive-site.xml
​
在这个新创建的配置文件中加入如下内容即可:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://hadoop1:3306/hive?createDatabaseIfNotExist=true&amp;verifyServerCertificate=false&amp;useSSL=false</value>
</property>
​
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
</property>
​
<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
</property>
​
<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hadoop</value>
</property>
​
<property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
</property>
​
<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>
</configuration>
​
第4步:加入MySQL驱动
加入MySQL驱动包 mysql-connector-java-5.1.40-bin.jar 该jar包放置在hive的安装根路径下的lib目录中,hive要读写MySQL
​
第5步:复制Hadoop集群的配置文件
一定要记得把Hadoop集群中的 core-site.xml 和 hdfs-site.xml 两个配置文件都放置在Hive安装目录下conf目录中。
cp core-site.xml hdfs-site.xml ~/install/apache-hive-2.3.6-bin/conf/
​
第6步:复制hive到其他节点
scp -r apache-hive-2.3.6-bin root@hadoop2:/root/install
scp -r apache-hive-2.3.6-bin root@hadoop3:/root/install
​
第7步: 安装完成,配置环境变量
export HIVE_HOME=/home/bigdata/apps/apache-hive-2.3.6-bin
export PATH=$PATH:$HIVE_HOME/bin
​
第8步:验证Hive安装
hive --service version
​
第9步:初始化元数据库
注意:当使用的hive是1.x之前的版本,不做初始化也是OK的,当Hive第一次启动的时候会自动进行初始化,只不过会不会生成足够多的元数据库中的表。在使用过程中会慢慢生成。但最后进行初始化。如果使用的2.x版本的Hive,那么就必须手动初始化元数据库。使用命令:
schematool -dbType mysql -initSchema
​
第10步:启动Hive 客户端
hive
hive --service cli
​
HiveServer2服务部署方法如下:
修改的Hadoop集群中的 core-site.xml 和 hdfs-site.xml,并且一定要记得,所有节点都的修改。重启Hadoop集群
​
第一步:修改hadoop集群的hdfs-site.xml配置文件:加入一条配置信息,表示启用webhdfs
<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>
​
第二步:修改hadoop集群的core-site.xml配置文件:加入两条配置信息:表示设置hadoop集群的代理用户
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
​
启动Hiveserver2服务
nohup hiveserver2 1>/root/install/apache-hive-2.3.6-bin/log/hiveserver.log 2>/root/install/apache-hive-2.3.6-bin/log/hiveserver.err &
​
启动beeline客户端,HUE,HDP的hive界面
beeline -u jdbc:hive2://hadoop1:10000 -n root
​
扩展:Hiveserver2 Web UI
Hive从2.0 版本开始,为 HiveServer2 提供了一个简单的 WEB UI 界面,界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。
​
hive-site.xml 配置文件:
<property>
    <name>hive.server2.webui.host</name>
    <value>hadoop1</value>
</property>
​
<property>
    <name>hive.server2.webui.port</name>
    <value>15010</value>
</property>
重启 Hiveserver2,访问 Web UI:http://hadoop5:15010

大数据开发技术讨论和学习交流群:556257229

想要视频学习资料和软件安装包的,戳⬇⬇⬇

免费领取500节大数据开发零基础课程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
完整全套资源下载地址:https://download.csdn.net/download/qq_27595745/65977804 【完整课程列表】 大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共25页).pptx 大数据与云计算教程课件 优质大数据课程 04.MapReduce Eclipse开发插件(共20页).pptx 大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共21页).pptx 大数据与云计算教程课件 优质大数据课程 08.HDFS文件接口(共41页).pptx 大数据与云计算教程课件 优质大数据课程 09.MapReduce序列化(共29页).pptx 大数据与云计算教程课件 优质大数据课程 10.MapReduce MP过程进阶(共42页).pptx 大数据与云计算教程课件 优质大数据课程 11.MapReduce IO操作(共61页).pptx 大数据与云计算教程课件 优质大数据课程 12.序列化框架(共28页).pptx 大数据与云计算教程课件 优质大数据课程 13.深入MapReduce应用开发(共21页).pptx 大数据与云计算教程课件 优质大数据课程 14.Hadoop集群配置(共6页).pptx 大数据与云计算教程课件 优质大数据课程 15.Hive(共46页).pptx 大数据与云计算教程课件 优质大数据课程 16.Hive操作(共43页).pptx 大数据与云计算教程课件 优质大数据课程 17.Hive查询(共32页).pptx 大数据与云计算教程课件 优质大数据课程 18.HBase(共43页).pptx 大数据与云计算教程课件 优质大数据课程 19.Pig(共33页).pptx 大数据与云计算教程课件 优质大数据课程 20.Pig Latin(共36页).pptx 大数据与云计算教程课件 优质大数据课程 21.Pig模式与函数(共64页).pptx 大数据与云计算教程课件 优质大数据课程 22.Zookeeper(共28页).pptx 大数据与云计算教程课件 优质大数据课程 23.Zookeeper服务(共47页).pptx 大数据与云计算教程课件 优质大数据课程 24.使用Zookeeper构建应用(共34页).pptx 大数据与云计算教程课件 优质大数据课程 25.Sqoop(共19页).pptx 大数据与云计算教程课件 优质大数据课程 26.深入Sqoop的导入(共29页).pptx 大数据与云计算教程课件 优质大数据课程 27.深入Sqoop导出(共19页).pptx 大数据与云计算教程课件 优质大数据课程 28.Flume(共33页).pptx 大数据与云计算教程课件 优质大数据课程 29.Kafka(共30页).pptx 大数据与云计算教程课件 优质大数据课程 30.Kafka开发(共34页).pptx 大数据与云计算教程课件 优质大数据课程 31.Strom(共14页).pptx 大数据与云计算教程课件 优质大数据课程 32.Spark入门之Scala(共173页).pptx 大数据与云计算教程课件 优质大数据课程 33.Spark入门(共40页).pptx 大数据与云计算教程课件 优质大数据课程 34.SparkSQL(共15页).pptx 大数据与云计算教程课件 优质大数据课程 35.Oozie(共41页).pptx 大数据与云计算教程课件 优质大数据课程 36.Impala(共20页).pptx 大数据与云计算教程课件 优质大数据课程 37.Solr(共38页).pptx 大数据与云计算教程课件 优质大数据课程 38.Lily(共23页).pptx 大数据与云计算教程课件 优质大数据课程 39.Titan(共20页).pptx 大数据与云计算教程课件 优质大数据课程 40.Neo4j(共50页).pptx 大数据与云计算教程课件 优质大数据课程 41.Elasticsearch(共17页).pptx

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值