用Hive实现MapReduce的单词统计

最新推荐文章于 2024-10-09 22:52:16 发布

Simmu

最新推荐文章于 2024-10-09 22:52:16 发布

阅读量1.4k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/a605907914/article/details/79778011

版权

hadoop 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

一个简单的单词统计在用MapReduce来实现虽然是经典用例，但是现实起来还是比较复杂的。

下面介绍如何用hive来实现单词统计。

首先准备一个记录单词的word.txt

然后在hive中新建一个表

并将word.txt的数据导入到该表中

然后运行如下的命令

select tt.wordtxt,count(*) cc from ( select explode(split(line,' ')) as wordtxt from word) as tt group by wordtxt sort by cc desc ;

结果如下

其中对该命令进行分析：

select tt.wordtxt,count(*) cc from ( select explode(split(line,' ')) as wordtxt from word) as tt group by wordtxt sort by cc desc ;

select explode(split(line,' ')) as wordtxt from word

不能直接对wordtxt进行group by，因为这个wordtxt不是列属性，所以需要在外面将这个表设置为as tt作为一个表，而此时wordtxt作为tt表的一个属性，这样才能进行group by。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Simmu

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据(十二) --使用MapReduce和SparkCore技术实现单词统计(WorldCount)案例

七宝.博客

11-21

1658

WorldCount案例示例数据需求分析计算分析MapReduce实现SparkCore实现示例数据需求分析计算分析 MapReduce实现 SparkCore实现

使用Java跨平台实现Mapreduce词频统计

李文彬的博客

04-04

2637

本文将演示通过JavaAPI在Hadoop集群上使用Mapreduce进行词频统计的简易过程：创建Maven项目并本地编写Java代码将要处理的数据上传至Hadoop系统将Maven项目打包成jar包并上传至服务器运行系统：Win10，CentOS 7.6 软件：Maven 3.8.4，Hadoop 2.7.3，Xshell，Xftp 1.创建Maven项目并本地编写Java代码初始化Maven项目首先创建一个新的Maven项目，此时文件结构应该类似于：此时将pom.xml文件的内容全部

参与评论您还未登录，请先登录后发表或查看评论

hadoop+hive+mapreduce的java例子

12-27

基于hadoop的Hive数据仓库JavaAPI简单调用的实例，关于Hive的简介在此不赘述。hive提供了三种用户接口：CLI，JDBC/ODBC和 WebUI CLI，即Shell命令行 JDBC/ODBC 是 Hive 的Java，与使用传统数据库JDBC的方式类似 WebGUI是通过浏览器访问 Hive 本文主要介绍的就是第二种用户接口，直接进入正题。 1、Hive 安装： 1）hive的安装请参考网上的相关文章，测试时只在hadoop一个节点上安装hive即可。 2）测试数据data文件'\t'分隔： 1 zhangsan 2 lisi 3 wangwu 3）将测试数据data上传到linux目录下，我放置在：/home/hadoop01/data 2、在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。使用下面命令进行开启: Java代码收藏代码 hive --service hiveserver >/dev/null 2>/dev/null & 我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信，但这三种方式最常用的是CLI；Client 是Hive的客户端，用户连接至 Hive Server。在启动 Client 模式的时候，需要指出Hive Server所在节点，并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。今天我们来谈谈怎么通过HiveServer来操作Hive。　　Hive提供了jdbc驱动，使得我们可以用Java代码来连接Hive并进行一些类关系型数据库的sql语句查询等操作。同关系型数据库一样，我们也需要将Hive的服务打开；在Hive 0.11.0版本之前，只有HiveServer服务可用，你得在程序操作Hive之前，必须在Hive安装的服务器上打开HiveServer服务，如下： 1 [wyp@localhost/home/q/hive-0.11.0]$ bin/hive --service hiveserver -p10002 2 Starting Hive Thrift Server 上面代表你已经成功的在端口为10002（默认的端口是10000）启动了hiveserver服务。这时候，你就可以通过Java代码来连接hiveserver，代码如下：

使用Mapreduce案例编写用于统计文本中单词出现的次数的案例、mapreduce本地运行等，Combiner使用及其相关的知识，流量统计案例和流量总和以及流量排序案例，自定义Partitioner

涂作权的博客

06-02

3732

工程结构：在整个案例过程中，代码如下：WordCountMapper的代码如下： package cn.toto.bigdata.mr.wc; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; impor

实现MapReduce程序完成行统计

最新发布

2401_83253656的博客

10-09

1260

运行LineCount程序命令:bin/hadoop jar /home/hadoop/mapreduce/MapReduce.jar com.learning.mapreduce.LineCount /input /output/linecount。xftp连接master服务器，在右框打开/home/hadoop/mapreduce目录，左框打开eclipse-workspace/MapReduce/target目录，将左框的MapReduce.jar文件复制粘贴到右框。

使用hive做单词统计

统木木的博客

04-03

991

MapReduce实现单词统计

weixin_30825199的博客

12-06

910

开发工具：IDEA mapreduce实现思路： Map阶段： a)从HDFS的源数据文件中逐行读取数据 b)将每一行数据切分出单词 c)为每一个单词构造一个键值对(单词，1) d)将键值对发送给reduce Reduce阶段： a)接收map阶段输出的单词键值对 b)将相同单词的键值对汇聚成一组 c)对每一组，遍历组中的所有“值”，累加求和，即得到每一个...

hive（3）——使用mapreduce

weixin_48445640的博客

10-10

557

当查询数据复杂时，hive就会调用hadoop里的mapreduce，前提：开启hdfs和yarn服务。此时，看可视化工具：已经成功运行

Hadoop简单应用案例，包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用

06-22

本案例将详细介绍Hadoop的一些基本应用，包括MapReduce、单词统计、HDFS的基本操作、web日志分析以及Zookeeper的使用，同时也涵盖了Hive的简单操作。 1. **MapReduce**：MapReduce是Hadoop处理大规模数据的核心组件...

Hadoop简单应用案例，包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用、Hive简单操作等

01-02

2. **单词统计**：这是MapReduce的典型应用场景，通常用于教学目的。程序会读取文本文件，对其中的每个单词进行计数，然后输出每个单词及其出现次数。这展示了如何利用Hadoop进行文本分析，对理解MapReduce的工作...

从MapReduce到Hive

liyifan687的博客

12-05

1410

1.计算框架 Hadoop 是一个计算框架，目前大型数据计算框架常用的大致有五种：仅批处理框架：Apache hadoop. 仅流处理框架：Apache Storm、Apache Samza. 混合框架：Apache Spark、Apache Flink. 这其中名气最大、使用最广的当属 Hadoop 和 Spark。虽然两者都被称为大数据框架，但实际层级不同。Hadoop 是一个分布式数...

基于Hive的MapReduce案例

Leviathan的博客

12-20

469

案例一、去重二、求平均分三、二次排序四、词频统计五、每月最高气温的天一、去重 Hive 表数据： sql代码： select distinct str from t1; 运行结果：二、求平均分 Hive 表数据： sql代码： select str,avg(grade) from t2 group by str; 运行结果：三、二次排序 Hive 表数据： sql代码： select * from t3 order by v1, v2 desc; 运行结果：四、词频统计 Hive

用hive做一个简单的单词统计

总分全班第一

11-17

872

1，开始学习Hadoop的时候为了练习单词统计，排序，每次都得用java编写MapReduce程序，常常一个单词统计的代码都得写很久，所以我就提前练习了一下hive语法，做一个单词的统计。 2，首先本地构造数据，数据内容如下： [hadoop@master ~]$ cat count.txt hello,world,welcome hello,welcome world,hello,hi [had...

mapreduce单词统计

cjwfinal的博客

09-01

2002

该程序的功能：（1）读取文件（2）统计每个单词出现的数量 1.创建words.txt文件并上传到HDFS 创建words.txt文件，添加内容 vim words.txt #添加单词（任意单词） hadoop,hive,hbase spark,flink,kafka python,java,scala sqoop,hello,world sqoop,hello,world sqoop,hello,world sqoop,hello,world sqoop,hello,world 上传到HDFS hd

Hadoop-MapReduce初步应用-统计单词个数