Hadoop系列之-自定义WordCount

最新推荐文章于 2021-12-10 17:44:17 发布

suzhi921

最新推荐文章于 2021-12-10 17:44:17 发布

阅读量504

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/suzhi921/article/details/52092046

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、摘要

上一篇文章我们安装以及配置了伪分布式模式,下面讲解本地模式:本地模式需要将上一篇文章的etc/hadoop下面的配置文件还原为默认解压缩时的配置(除了hadoop-env.sh)本地模式和伪分布式模式都是测试和调试的时候使用的，生产环境用的是全分布式模式。而伪分布式模式又是弥补本地模式的不足(本地模式无守护进程)。下面测试下本地模式：

1、在压缩目录下新建input目录(mkdir input)

2、放入2个文本文件1.txt和2.txt里面分别输入一些单词

3、bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount input output (执行此语句会自动生成output文件夹)执行上面的命令后使用cat output/* ，单词统计结果如下：

4、   rm -rf output/

5、   mkdir -p /opt/hadoop-2.7.2/playground

6、        拷贝hadoop源码下的WordCount.java（cp /opt/hadoop-2.7.2-src/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WordCount.java /opt/hadoop-2.7.2/playground
)

7、   移除包名package org.apache.hadoop.examples;

8、   bin/hadoop com.sun.tools.javac.Main playground/src/WordCount.java

9、   jar cf wc.jar WordCount*.class

10、  bin/hadoop jar wc.jar WordCount input output

11、  cat output/*

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

suzhi921

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hadoop基础【MapReduce概述，wordcount示例，自定义JavaBean实现序列化】

weixin_43923463的博客

03-08

810

一、概述定义：MapReduce是一个分布式运算程序的编程框架，是接触到的第一个编程框架。在框架下编程体验：非常不透明，大部分功能都已经实现了。核心功能：将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并运行在一个Hadoop集群上。优点：简单实现一些接口，我们可以非常快速的开发出一个分布式程序。缺点：慢，因为资源占用相对低。在计算机中，时间和空间是一对矛盾的概念，想要快速就要占用多的空间，想节省资源就要多花费时间。MapReduce框架用的很少，但思想一致。核

Hadoop之实战WordCount

qq_52150032的博客

05-19

1765

大致流程如下：第一步：开发Map阶段代码第二步：开发Reduce阶段代码第三步：组装Job 在idea中创建WordCountJob类添加注释，梳理一下需求：需求：读取hdfs上的hello.txt文件，计算文件中每个单词出现的总次数 hello.txt文件内容如下： hello you hello me 最终需要的结果形式如下： hello 2 me 1 you 1 先创建map阶段的代码，在这里需要自定义一个mapper类，继承框架中的Mapper类 public static.

参与评论您还未登录，请先登录后发表或查看评论

hadoop集群上运行自定义wordcount

weixin_34072857的博客

04-11

123

2019独角兽企业重金招聘Python工程师标准>>> ...

Hadoop之MapReduce02【自定义wordcount案例】

波波烤鸭的博客

04-03

1694

创建MapperTask 创建一个java类继承Mapper父类接口形参说明参数说明 K1 默认是一行一行读取的偏移量的类型 V1 默认读取的一行的类型 K2 用户处理完成后返回的数据的key的类型 V2 用户处理完成后返回的value的类型注意数据经过网络传输，所以需要序列化数据类型序列化类型 Integer IntWritabl...

MapReduce基础-自定义WordCount过程

www666_的博客

05-02

343

hadoop自带的wordcount应用：>1）本地文件hello.txt cat hello.txt2）复制文件：cp hello.txt hello2.txt3）在远程创建d3文件夹hadoop@Master:/usr/local/hadoop/share/hadoop/mapreduce$ hadoop fs -mkdir /user/hadoop/d34）分别将本地的hello.tx...

自定义wordCount程序、

weixin_30314631的博客

12-26

148

1.MyWordCount代码： package com.hadoop.mr; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; ...

hadoop-bin-3.1.0(含winutils)编译文件

07-26

对于开发者来说，理解Hadoop的基本原理和编程模型非常重要，包括MapReduce的map和reduce阶段、InputFormat和OutputFormat接口、RecordReader和RecordWriter的概念，以及如何编写自定义分区器和Combiner。此外，学习...

Hadoop(三) -- MapReduce（一）WordCount

BubbleMa

12-10

765

一、设计思想移动计算代替移动数据。分而治之。 MapReduce是一个分布式计算框架，借助函数式编程思想，用Map和Reduce两个函数编程实现基本的并行计算任务。MapReducer内部封装了文件读取操作，用户在使用时只需要继承Mapper和Reducer类并实现map和reduce两个方法（相当于将自己的业务逻辑作为参数传入MapReducer框架）即可实现大数据分布式计算。 MapReduce计算模型主要由三个阶段构成：Map、shuffle...

大数据之八 hadoop MapReduce on YARN--WordCount

xingyao231的博客

10-20

355

Hadoop MapReduce WordCount执行过程及代码分析

Hadoop集群-WordCount运行详解.pdf

10-23

1.3WordCount源码分析中，1.3.1特别数据类型介绍了Hadoop自定义的几种数据类型，它们在实现MapReduce程序中扮演重要角色。1.3.2旧的WordCount分析与1.3.3新的WordCount分析，从源码层面解读了旧版和新版的WordCount...

WordCount——自定义累加器实现WordCount

ChangXinZaiCi的博客

09-07

284

具体代码和步骤如下 def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("name") //2.创建SparkContext，该对象是提交Spark App的入口 val sc= new SparkContext(sparkConf) //6.注册累加器

Hadoop入门学习(3)——自己写一个WordCount

qq_41666768的博客

02-03

454

工具：IntelliJ IDEA CE（无法进入jetbrains官网进行下载的话，可尝试将DNS修改为8.8.8.8）步骤： 1.在Idea中新建一个项目wordcount 2.在项目的src目录中new一个java class:WordCountJob 3.引入相关的jar包： 4.编写代码,在WordCountJob类中，实现两个静态内部类MyMapper以及MyReduce，并且在ma...

MapReduce之自定义WordCount案例

chen7588693的博客

12-13

381

在一堆给定的文本文件中统计输出每一个单词出现的总次数。 1.分析 mapper阶段：将mapstack 传给我们的文本信息内容先转换成string。根据空格将一行切分成单词。将单词输出为<单词，1>的格式。 reducer阶段汇总各个key的个数输出该key的总数 driver阶段获取配置信息指定本程序的jar所在的本地路径关联mapper和reducer类 ...

MapReduce自定义WordCount实现案例（入门）

SnowXu01的博客

09-12

236

1. 准备工作 1.1 远程文件准备（1）创建数据文件 [hadoop@hadoop181 ~]$ mkdir mapreduce [hadoop@hadoop181 ~]$ cd mapreduce/ # 创建文件 [hadoop@hadoop181 mapreduce]$ vim wordcount.txt # 新增文件内容 [hadoop@hadoop181 mapreduce]$ cat wordcount.txt hello,world,hadoop hive,sqoop,flume,h

学习Hadoop第十四课（自定义分区Partitioner）

u012453843的专栏

10-10

2849

上一节课我们一起学习了Hadoop的远程调试，这节课我们一起学习Hadoop的Partitioner（分区），首先说一下为什么要用到分区的功能，这里我们举个例子，中国移动公司想要查看北京用户的打电话情况，手机信号来自附近的基站，要查看北京用户的信息得从全国所有的基站获取信息并一一筛选，假如我们不把用户按省市进行分别存放的话，每次我们想查看某个省市的信息时便需要从全国所有的基站信息中去一一查

基于排序机制的wordcount程序

小江专栏

07-10

488

案例需求：对文本文件内的每个单词都统计出其出现的次数。按照每个单词出现次数的数量，降序排序。 java代码： import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.

wordCount原理+JAVA基础复习

programmer_Q的专栏

03-27

375

package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import o

解决Eclipse中运行WordCount出现 java.lang.ClassNotFoundException: org.apache.hadoop.examples.WordCount$Token

计算机系统、存储

05-25

2550

转载至：这里在examples包中建立EJob类：package org.apache.hadoop.examples; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.net.URL;

Hadoop MapReduce WordCount 例程

HanseyLee

12-23

164

Hadoop MapReduce WordCount 例程 package tomas.test; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import ...

Hadoop编程实践与WordCount案例详解

Hadoop编程是Apache Hadoop项目的核心组件之一，它是一种分布式计算框架，用于处理大规模数据集。本资源主要介绍如何在Hadoop环境中进行编程，包括安装、配置和执行MapReduce任务。以下是关键知识点的详细阐述： 1....