MapReduce实验：Hive安装以及简单操作

最新推荐文章于 2023-06-08 15:00:00 发布

仰望-NLQ

最新推荐文章于 2023-06-08 15:00:00 发布

阅读量2.2k

点赞数

分类专栏： Hadoop-MapReduce-HBase-Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/simpleniulq/article/details/24325933

版权

Hadoop-MapReduce-HBase-Hive 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

接上一篇HBase的安装以及简单操作...

2.Hive

2.1.单机环境下Hive安装

下载hive，链接http://apache.cs.utah.edu/hive/，最新版本为hive-0.13.0。

解压tar –zxvf apache-hive-0.13.0.tar.gz，安装在hadoop目录下。

配置环境变量，sudo gedit /etc/profile，如下所示：

同样执行source /etc/profile使其生效。

进入$HIVE_HOME/conf目录，原来有四个template文件，执行命令生成正式配置文件：

cp hive-default.xml.template hive-site.xml
cp hive-env.sh.template hive-env.sh
cp hive-exec-log4j.properties.templatehive-exec-log4j.properties
cp hive-log4j.properties.templatehive-log4j.properties

编辑hive-site.xml文件，在最后加入：

说明：根据自己jar的路径。

至此配置完成，后续进行shell操作。

2.2.Hiveshell简单操作

启动hive，进入$HIVE_HOME目录，执行bin/hive，执行jps检测：

多出一个RunJar，暂时不了解是何作用。

在hive中建表：

从文本中导入数据：

文本数据格式为：

执行SQL查询：

2.3.Hiveshell实验-莎士比亚文档词频统计

创建表：Shakespeare（word string，count int）：

用showtables查询所有的表：

由于是实验，所以自己定义了一个词频统计文件，wordCount.txt，如下格式：

导入wordCount.txt中的数据：

注意：hive不支持用insert语句一条一条的进行插入操作，也不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。

SQL查询Shakespear中的数据：

执行select* from shakespear;则会直接得到数据，如下：

执行selectshakespear.word from shakespear;，将会采用mapreduce执行查询，如下：

检索表中词频数count大于1000的词，执行select* from shakespear where shakespear.count>1000;，得到如下结果：

检索表中前10个出现次数最多的词，执行select* from shakespear sort by count desc limit 10;，得到如下结果：

3.HBase与Hive总结

3.1.HBase原理

在整个HBase到操作建表的过程中，我们可以体会到HBase是建立在HDFS之上，并且由于所创建的表与google BigTable相似，由行，列族，列名，值组成。因此，可以看到相比HDFS的一般性，HBase可以为上层应用提供结构化半结构化海量数据存储访问能力。

即光有分布式文件系统HDFS还不足够，HBase支持了分布式文件系统之上的非关系型数据库，为用户提供数据的存储访问。

3.2.Hive原理

通过Hive的安装以及查询，我们可以体会到，Hive建立在HDFS、HBase、MapReduce之上，既可以完成数据的存储，也可以完成数据的访问。对于每一个任务，我们可以看到Hive利用MapReduce来完成Job。

可以认为Hive是在分布式文件系统HDFS之上，结合HBase以及MapReduce高度集成的数据仓库，为用户提供了数据存储和访问。

4.附录

最后引入HBase与Hive在整个hadoop生态系统中的结构图：

还有Hive的原理图：

我们可以更加深刻的理解HBase以及Hive。

5.References

部分资料来自黄宜华老师的MapReduce课程ppt以及互联网。在此感谢。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce实验：Hive安装以及简单操作

2.Hive2.1.单机环境下Hive安装下载hive，链接http://apache.cs.utah.edu/hive/，最新版本为hive-0.13.0。解压tar –zxvf apache-hive-0.13.0.tar.gz，安装在hadoop目录下。配置环境变量，sudo gedit /etc/profile，如下所示：同样执行source /etc/profil
复制链接

扫一扫

专栏目录

仰望-NLQ CSDN认证博客专家 CSDN认证企业博客

码龄13年

23: 原创

33万+: 周排名

37万+: 总排名

6万+: 访问

: 等级

901: 积分

12: 粉丝

4: 获赞

2: 评论

19: 收藏

私信

关注

热门文章

分类专栏

最新评论

Linux下C语言编程利用RPC(Remote Procedure Call)快速实现分布式系统
善见致知: 博主你好！请问下RPC怎么通过zookeeper实现集群？我现在三台机器上都部署了zookeeper，但是不知道怎么把RPC的server端用上，求指教
An Introduction to Deep Learning (in Java)
adital: Hey, Adi from Team Toptal here. Thanks for sharing our writeup! Given the entire post is here I was hoping you'd edit it with an introductory paragraph of your thoughts and limit the post to only a few paragraphs with a link to the original article found here: http://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks Thanks!

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。