《Hadoop生态》——第二章数据库与数据管理——Hive

最新推荐文章于 2024-09-16 09:00:00 发布

K.Sun

最新推荐文章于 2024-09-16 09:00:00 发布

阅读量466

点赞数

分类专栏： Hadoop 文章标签： hadoop

Hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Hive

许可证： Apache License, Version 2.0
活跃度： 高
目的： 数据交互
官方地址： http://hive.apache.org
Hadoop集成： 完全集成

首先所有对在Hadoop集群上数据的访问都是通过用Java写的MapReduce任务完成的。当所有的Hadoop用户有了一个比较稳定的Java牛人团队的时候，这个在Hadoop发展初期效果是相当好的。但是随着Hadoop融入到更为广泛的领域，许多人都想用Hadoop，但是对于经常写SQL的码农，这些人还要写MapReduce，那么对于他们来讲还是一个比较艰难的学习过程。学Hive吧。Hive的目标就是让SQL在HDFS中访问数据。Apache Hive数据仓库软件推进了在HDFS中大数据的查询和保存管理工作。Hive定义了一种类似于SQL的查询语言，成为HQL，它可以让用户用类似于SQL的语言查询数据。Hive可以把HQL转换为HDFS编码，并由Hadoop执行。但是必须注意，HQL不是完全的ANSI标准的SQL。虽然基本的东西还是都有的，但是有些特征就没了。下面是2015年初的部分列表：

Hive不支持不等的连接条件。
不支持更新和删除声明。
不支持事务。

你可能不需要这些，但是你要运行第三方解决方案生成的代码，你可能会生成非Hive编译代码。

Hive没有强制读写数据必须是“Hive格式”的——没有这么一说。这就是说你的数据可以直接用Hive访问而且不需要传统关系型数据库典型要求的如抽取，转换，加载（ETL）预处理。

教程链接

官方Hive教程有很多好资源，HortonWorks上也有发行的视频。

示例代码

假设我们有一个逗号分隔（CSV）的值文件，它是电影评论，并且有关于评论人，电影以及打分的信息。

Kevin,Dune,10
Marshall,Dune,1
Kevin,Casablanca,5
Bob,Blazing Saddles,9

首先要为数据定义一个图表：

CREATE TABLE movie_reviews ( reviewer STRING, title STRING, rating INT)
ROW FORMAT DELIMITED
FILEDS TERMINATED BY ‘\,’
STORED AS TEXTFILE

然后我们通过指向电影评论文件中的表加载数据。因为Hive不要求数据必须是某种指定的格式，加载一个表就是简单地用Hive指向HDFS中的文件：

LOAD DATA LOCAL INPATH ‘reviews.csv’
OVERWRITE INTO TABLE movie_reviews

现在我们已经准备做分析。假设在这种情况下，我们想找出电影Dune的平均打分：

Select AVG(rating) FROM movie_reviews WHERE title = ‘Dune’;

K.Sun

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

《Hadoop生态》——第二章 数据库与数据管理——Hive

Hive

教程链接

示例代码

《Hadoop生态》——第二章数据库与数据管理——Hive