菜鸟先飞之MapReduce(包含词频统计等实例及我踩过的惊雷)

最新推荐文章于 2024-05-24 09:45:00 发布

年纪轻轻却聪明绝顶

最新推荐文章于 2024-05-24 09:45:00 发布

阅读量853

点赞数

文章标签：大数据 mapreduce hadoop

本文链接：https://blog.csdn.net/wangbenguixin/article/details/107076061

版权

MapReduce是一个分布式计算框架

起源于Google

它将大型数据操作作业分解为可以跨服务器集群并执行单个任务

适用于大规模数据处理场景

每个节点处理存储在该节点的数据

每个job包含Map和Reduce两部分

分而治之

简化并行计算的编程模型

构建抽象模型：Map和Reduce

开发人员专注于实现Mapper 和Reducer 函数

隐藏系统层细节

优点：

易于编程：实现接口就能完成一个分布式计算框架

可扩展性强

高容错性

高吞吐量：处理的数据量

不适用领域

难以实时计算：Mapper reduce 是批量处理无法实时处理（离计算）

不适合流式计算：只能处理静态数据

不适合DAG（有向图）计算

key和value类型

1、必须可序列化（serializable）

作用：网络传输以及持久化存储

IntWritable、LongWriteable、FloatWritable、Text、DoubleWritable,BooleanWritable、NullWritable等

2、都继承了Writable接口

并实现write()和readFields()方法

3、Keys必须实现WritableComparable接口

Reduce阶段需要sort

keys需要可比较

Mapreduce编程模型

input 输入

map 接收键和值

combine 进行优化

partitioner 进行分区

reducer 接收输入转为输出

output 输出

mapreduce 工作过程

Mapreduce 实现Wordcount(词频统计编程)

1、创建maven工程添加pom文件依赖关系

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<groupId>Mapreduce</groupId>
<artifactId>cn.kgc</artifactId>
<version>1.0-SNAPSHOT</version>

<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<hadoop.version>2.6.0</hadoop.version>
</properties>

<dependencies>

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-auth</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-jobclient</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version&g

最低0.47元/天解锁文章

年纪轻轻却聪明绝顶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
菜鸟先飞之MapReduce(包含词频统计等实例及我踩过的惊雷)

MapReduce是一个分布式计算框架起源于Google它将大型数据操作作业分解为可以跨服务器集群并执行单个任务适用于大规模数据处理场景每个节点处理存储在该节点的数据每个job包含Map和Reduce两部分分而治之简化并行计算的编程模型构建抽象模型：Map和Reduce开发人员专注于实现Mapper 和Reducer 函数隐藏系统层细节优点：易于编程：实现接口就能完成一个分布式计算框架可扩展性强高容错性高吞吐量：处理的数...
复制链接

扫一扫