使用Hive处理WordCount

最新推荐文章于 2023-05-14 17:57:55 发布

停不下的脚步

最新推荐文章于 2023-05-14 17:57:55 发布

阅读量4.3k

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mylittlered/article/details/42148863

版权

hadoop 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

一.在Hive中创建存放要处理的数据的表

$hive> create table textlines(line string)

导入数据：

$hive> load data inpath ’tmp/input’ overwrite into table textlines;

如果想从本地导入，可以使用这个load data local inpath '...',这里的就会是这样的/tmp/input/wordcount。

查看是否导入成功：

$hive> select * from texlines;

二.用HIVE实现map/reduce的计算

下面是HIVE编程指南给出的word count HQL:

SELECT word,count(1) AS count FROM (SELECT explode(split(,'[ \t]+') ) AS word FROM docs ) w GROUP BY word ORDER BY word;

我讲上面语句拆分成两条语句：

SELECT explode(split(line,’\s’)) AS word FROM docs；

SELECT word,count(1) FROM w GROUP BY word ORDER BY word;

所以我先创建一个words表，存放第一条查询的结果：

$hive> create table words(word STRING);

$hive> insert overwrite table words select explode(split(line,'\s’)) word from textlines;

注：关键语句是select explode(split(line,'\s’)) 这句将处罚Hadoop进行MapReduce计算，explode()函数表示将字符串分割为数组，\s是正则，表示空白字符，split(line,'\s’)就是将line(textiles表的字段)按照正则\s分割，然后explode函数将KEY相同的value存在数组里。这HQL条语句相当于Hadoop中的Map函数。

现在来处理第二条HQL语句：SELECT word,count(1) FROM w GROUP BY word ORDER BY word;

$hive> SELECT word,count(1) FROM words GROUP BY word ORDER BY word;

注：这条语句相当于Hadoop中的reduce函数。

三.将我们处理获得的结果导出：

$hive> INSERT OVERWRITE LOCAL DIRECTORY ‘/tmp/wordcount_result’ SELECT word,count(1) FROM words GROUP BY word ORDER BY word;

LOCAL去掉表示导出到HDFS的目录；

下面就用Sqoop将HDFS上的结果存储到mysql上了

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。