通过hadoop上的hive完成WordCount

最新推荐文章于 2023-05-04 12:12:49 发布

dieqi0853

最新推荐文章于 2023-05-04 12:12:49 发布

阅读量170

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/qazwsx833/p/9046680.html

版权

1.启动hadoop

打开所有命令：start-all.sh

2.Hdfs上创建文件夹

创建名为PGOne到user/hadoop

3.上传文件至hdfs

创建和修改508.txt文件，里面尽量多写一下，可写一些重复的内容，以便后面的查重。

4.启动Hive

打开hiv，不解释

5.创建原始文档表

这里要注意一下，前面创建完之后，一定要先查看是否已经存入到相应的文件夹，同时，txt里面是否有数据，否则就会报错。

6.导入文件内容到表docs并查看

7.用HQL进行词频统计，结果放在表word_count里

这个注意不要打错，word和count(1)之间那个是","不是"."

8.查看统计结果

查看新创的table

查看最后的结果

转载于:https://www.cnblogs.com/qazwsx833/p/9046680.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dieqi0853

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用Hive实现wordcount

Today_2018的博客

06-21

597

一、实验内容：用hive实现wordcount 二、实验步骤： 1.准备数据首先利用vi编辑器，编写一个word.txt文件，内容如下图所示： 2.创建测试数据库，命名test,输入如下命令，如图所示 create database test; 3.在test数据库中创建表wordcount create table wordcount(rowdata string); 4.加载数据代码如下 load data local inpath '/home/hadoop/word.txt' .

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

m0_46689661的博客

12-05

9822

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

参与评论您还未登录，请先登录后发表或查看评论

Hive实现wordCount

arne's Blog

06-27

319

a. 创建一个数据库 create database word; b. 建表 create external table word_data(line string) row format delimited fields terminated by '\n' stored as textfile location '/home/hadoop/worddata'; 这里假设我们的数据存放在had...

Hive实现wordCount程序

TURING.DT

04-13

5156

Hive实现wordCount程序 a. 创建一个数据库，如 create database word; b. 建表 create external table word_data(line string) row format delimited fields terminated by '\n' stored as textfile location '/home/hadoop

hive实现WordCount

sjw2020的博客

05-27

285

一、WordCount原理初学MapReduce编程，WordCount作为入门经典，类似于初学编程时的Hello World。WordCount的逻辑就是给定一个/多个文本，统计出文本中每次单词/词出现的次数。网上找的一张MapReduce实现WordCount的图例，基本描述清楚了WordCount的内部处理逻辑。本文主要是从Hive使用的角度处理WordCount，就不赘述，之前的一篇博文...

初学hadoop——Hive Java API的使用

qq_45154565的博客

10-21

446

以词频统计算法为例，来介绍怎么在具体应用中使用Hive 一、创建input目录，output目录会自动生成其中input为输入目录，output目录为输出目录。命令： cd /usr/local/hadoop mkdir input 二、在input文件夹中创建两个测试文件file1.txt和file2.txt 命令： cd /usr/local/hadoop/input echo "hello world" > file1.txt echo "hello hadoop" > fi

完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 09 Hive 共36页.pptx

09-05

课程中可能通过Wordcount的例子来解释这一过程，Wordcount是Hadoop入门的经典例子，用于统计文本文件中单词的出现次数。【BLAST与Map-Reduce】 BLAST是一种生物信息学中的序列比对算法，适合于MapReduce处理，...

利用Hive实现WordCount(一句sql搞定）

paul250670的博客

09-02

1362

背景前面我们利用MapReduce实现了单词统计，但是比较的繁琐和复杂，要实现Map和Reduce方法。我们来看看Hive是怎么实现单词统计的呢，一条sql语句搞定。 Hive是什么 Hive是一个SQL解析引擎，将SQL语句转化成MR Job，然后在Hadoop平台上运行。 Hive不存储数据，完全依赖HDFS和MapReduce。 Hive中的表是纯逻辑表，就只是表的定义等，本质就是Ha...

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

砍柴人的博客

02-25

1496

java.net.ConnectException: Call From hadoop-master/172.18.0.2 to hadoop-master:8 032 failed on connection exception: java.net.ConnectException: Connection refuse d; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused at sun.refl.

Hive实现wordcount统计

Realoyou的博客

01-28

1506

1. 创建一个数据库 1. hive> create database wordcount; 2. OK 3. Time taken: 0.389 seconds 4. hive> show databases; 5. OK 6. default 7. wordcount...

2.3.9 hadoop体系之离线计算-Hive数据仓库-hql实现wordcount操作

敲代码的乔帮主

06-30

314

1.写在前面类比hql理解，hive出现的目的就是因为MapReduce编程太不方便了，想写一个wordcount，需要写一个Mapper的子类+Reducer的子类，最后还要写一个主类用来描述job、提交job（mapreduce实现WordCount）。hql的出现大大简化了这一流程，直接分割文本，切出每个单词，利用行转列将每个单词作为一行统计次数即可。 2.sql实现先直接上SQL语句，可以看出SQL实现确实比MapReduce实现要清爽得多。大概实现流程分为三步：分割本...

HIVE实现wordcount过程

cqra94148的博客

12-28

274

1、建表并关联数据：进入hive命令行： hive 执行： create external table wordcounts(line string) row format delimited fields termi...

hive版本wordcount

Cumu Blog

08-19

3343

1. wordcount程序相当于hadoop MapReduce的一个helloworld程序吧，纯的MR代码如下： a.

02 在Hive中完成词频统计

张力的程序园

06-05

508

上一节我们在CentOS7中安装了Hive，本章将演示如何在Hive当中完成词频统计。 1 系统、软件以及前提约束在CentOS7中安装Hive并启动 https://www.jianshu.com/p/755944f01fab 所有操作都以root用户进行 2 操作 1 在/root下创建一个email文件，内容如下 HillarSt@CardBlvdsnaase.n...

Hive实现wordcount的统计

01-03

1699

1 所需环境 Hive的安装参考地址 2 创建一个数据库创建wordcount数据库 hive> create database wordcount; OK Time taken: 0.389 seconds hive> show databases; OK default wordcount Time taken: 0.043 seconds, Fetch...

Hive应用实例：WordCount

最新发布

qq_35193897的博客

05-04

314

通过一个实例——词频统计，来深入学习一下Hive的具体使用。首先，需要创建一个需要分析的输入数据文件，然后，编写HiveQL语句实现WordCount算法，在Linux下实现步骤如下：首先，启动Hadoop进程。创建input目录，其中input为输入目录。执行完成后，用select语句查看运行结果如下图所示。将测试文件上传至HDFS文件系统的input目录下。在HDFS文件系统上创建input目录。

hive 实现word count 例子

haodiaoji9386的博客

09-15

1490

首先启动hive ：bin/hive 创建表：create table wordcount(context string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n'; 准备要统计的数据我的文件名叫：hello.txt 将数据加载到 wordcount表中根据’ ‘切分数据，切分出来的每个单词作为一行记...

大数据实验六Hive

weixin_43808332的博客

05-30

1204

一.Hive定义 1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类sql查询功能。Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以很自由的组织hive中的表，只要在创建表示告知hive数据中的列分隔符和行分隔符，它就可以解析数据。hive所有的数据都存储于HDFS中，它的本质是将SQL转换为MapReduce程序完成查询。...

十分钟快速入门Hadoop：HDFS+MapReduce+Hive+HBase

"Hadoop入门教程，涵盖了Hadoop家族的主要组件，包括HDFS、MapReduce、Hive和HBase，旨在帮助初学者快速理解和使用Hadoop生态。" 在云计算领域，Hadoop作为开源的大数据处理框架，扮演着至关重要的角色。这门入门...