mapreduce的数据清洗具体过程？？？

最新推荐文章于 2024-09-16 22:54:38 发布

寻寻尼尼

最新推荐文章于 2024-09-16 22:54:38 发布

阅读量3.2k

点赞数 3

分类专栏： bigdata 文章标签： mapreduce

本文链接：https://blog.csdn.net/qq_40757296/article/details/84142654

版权

bigdata 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

对于这个问题

一般来说我们在使用mapreduce进行数据清洗的时候，只是用map端，因为数据的清洗一般

不会涉及到聚合的问题，所以我们经常是设置reduce的个数为0

我想这个问题，问的应该是mapreduce的运行过程吧（个人理解）

mapreduce运行过程如下：

mapreduce主要分为5个过程

input>>map>>shuffle>>reduce>>reduce

input读取文件，然后把数据转换为key-value的形式输出给map端，

map端在接收到数据后，

1、把处理过后的数据会送往环形缓冲区，然后在环形缓冲区内，对数据进行分区（注意：

这里的分区是类似一个打标签的操作，标明是哪个reduce的分区）、分区内排序；

2、在环形缓冲区达到阈值80%的时候，会开始溢写，形成多个小文件，最后合并这些小

文件，map端的shuffle结束

3、接着，map通知appmaster，appmaster去通知reduce任务，来拉去属于自己分区内的数据，

对自己分区内的数据合并，排序

4、对相同的key进行分组

然后reduce端结束，最后将数据写入output

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寻寻尼尼

关注关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

MapReduce中ETL数据清洗案例

QYHuiiQ

08-01

864

在实际业务场景中，我们在对数据处理时会先对数据进行清洗，比如过滤掉一些无效数据；清洗数据只需要map阶段即可，不需要reduce阶段。在该案例中我们要实现的是员工表数据中只留下部门编号为d01的数据。可以看到只有部门为d01的数据留下来了，符合预期结果。这样就简单地实现了ETL中地数据清洗过程。...

Mapreduce数据清洗

zlj的博客

11-13

506

Result文件数据说明： Ip：106.39.41.166,（城市） Date：10/Nov/2016:00:01:02 +0800,（日期） Day：10,（天数） Traffic: 54 ,（流量） Type: video,（类型：视频video或文章article） Id: 8701（视频或者文章的id）测试要求： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入hive...

1 条评论您还未登录，请先登录后发表或查看评论

mapreduce项目 数据清洗

10-10

mapreduce基本数据读取，通俗易懂。此项目情景为，遗传关系族谱。（爷爷、父母、孩子）经典案例

MapReduce 之数据清洗（ETL）

程序员学习圈

07-08

3371

1.概述在运行核心业务Mapreduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序，不需要运行reduce程序。2.数据清洗案例实操 ...

详解MapReduce全过程

最新发布

2301_77702743的博客

09-16

1329

我们为什么要如此大费周章的使用MapReduce？用MySQL处理不好吗？大家有没有这些疑问，明明很多的事情MySQL就能够解决的很好，为什么硬要上MapReduce呢？我来回答一下这个问题。MySQL是单机场景，而MapReduce是分布式系统，两个工具处理数据的能力是千差万别，mapreduce适合的是PB，TB级别的数据集处理，而mysql能力却较为有限。mapreduce采用分布式计算，容错性非常之高，一个节点报错了其他节点可以迅速进行补上。

mapreduce清洗mysql_MapReduce实验-数据清洗-阶段一

weixin_42502089的博客

02-07

565

Result文件数据说明：Ip：106.39.41.166,(城市)Date：10/Nov/2016:00:01:02 +0800,(日期)Day：10,(天数)Traffic: 54 ,(流量)Type: video,(类型：视频video或文章article)Id: 8701(视频或者文章的id)测试要求：1、数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。两阶段数据清洗：...

Hadoop 教程 - MapReduce框架原理之数据清洗

qq_33240556的博客

06-24

433

在Hadoop的MapReduce框架中，数据清洗是预处理阶段的一个重要环节，用于去除或修正原始数据中的错误、重复、不完整或格式不一致的信息，确保后续分析和处理的数据质量。

MapReduce程序数据清洗

大数据学习

03-26

1万+

一、首先准备好需要的清洗的数据二、将数据导入项目中，在项目下新建input(原数据)，output(清洗过后的数据)，如下图所示：三、导入所需要的jar hadoop-2.8.5\share\hadoop\common*jar hadoop-2.8.5\share\hadoop\common\lib*jar hadoop-2.8.5\share\hadoop\hdfs*jar hadoop-2...

mapreduce综合应用案例 - 招聘数据清洗.docx

05-23

### MapReduce综合应用案例——招聘数据清洗 #### 一、背景随着互联网技术的迅猛发展，各类在线招聘平台成为连接求职者与企业的桥梁。这些平台不仅提供了海量的招聘信息，也为企业的人才选拔提供了便利。然而，在...

MapReduce数据清洗

qq_43297802的博客

11-08

2978

一、简单解析版 1.需求去除日志中字段长度小于等于11的日志。 2.输入数据 3.实现代码（1）编写LogMapper package com.bigdata.mapreduce.weblog; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.N...

用MapReduce清洗数据

热门推荐

Copperfield的技术成长专栏

03-26

1万+

用MapReduce清洗数据接触Hadoop平台大半年了，还从来没写过一次MapReduce的业务代码，刚好赶上清洗数据的业务需求，写了一个简单的MapReduce类，用来清洗数据，顺手把一个简单的MapReduce工作流的代码框架记录下来第一个MapReduce程序不是流行的WordCount 类的整个框架如下:public class DataCleaner extend

利用MapReduce进行数据清洗

qq_45750230的博客

09-14

1809

使用MapReduce,去除num.txt中以2开头的数字,将结果保存为num2.txt package MR_9_12; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; imp

14 - MapReduce之数据清洗(ETL)案例,倒排索引案例,ReduceTask 工作机制,Hadoop 数据压缩简介

花&败

08-10

2637

一：简介在运行核心业务 Mapreduce 程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行 mapper 程序，不需要运行 reduce 程序。二：日志清洗案例之简单解析版需求：去除日志中字段长度小于等于11的日志(每一行按照空格切割，切割后数组长度小于11的日志不要) 数据如下：代码实现......

大数据采集、清洗、处理：使用MapReduce进行离线数据分析完整案例

weixin_46175018的博客

07-07

3090

1 大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求，则可以采用在线处理的方式来对数据进行分析，如使用Spark、Storm等进行处理。比较贴切的一个例子是天猫双十一的成交额，在其展板上，我们看到交易额是实时动态进行更新的，对于这种情况，则需要采用在线处理。当然，

hadoop之mapreduce教程+案例学习(三）之数据清洗案例

菜瓜的博客

02-11

4486

3.9 数据清洗（ETL）目录 3.9 数据清洗（ETL） 3.9.1 数据清洗案例实操-简单解析版 3.9.2 数据清洗案例实操-复杂解析版 3.10 MapReduce开发总结在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。 3.9.1 数据清洗案例实操-简单解析版 1．需求去除日志中字段长度小于等于11的日志。（1）输入数据 194.237.142.21

MapReduce 简单数据清洗

swx7410852963的博客

01-05

1478

MapReduce 简单数据清洗

基于MapReduce的招聘数据清洗项目（免费提供源码）

06-17

项目源码免费提供，帮助开发者了解和应用MapReduce进行数据清洗的具体实现。源码包括详细的注释和使用说明，方便用户快速上手和定制开发。通过该项目，用户不仅能掌握MapReduce的基本操作，还能体验大数据处理的实际...

Mapreduce_Map 数据清洗（ETL）案例实操

weixin_61959079的博客

06-22

449

使用Mapper对数据集进行清洗，业务逻辑写在Map阶段，能满足正常ETL。以上是我通过网络学习，自己总结和练习的过程。一是为了防止自己忘记学过的知识，二是分享自己学习过程得到的结果，以此来发布博客。以上如有雷同，请联系本人！

MapReduce实战，简单清洗日志

Movle

05-06

824

1.情况，利用MapReduce将web.txt文件进行简单的清洗，去除脏数据 2.日志文件web.txt 194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)" ...

MapReduce【数据清洗】

功不唐捐，玉汝于成

05-29

1822

MapReduce总结、apReduce数据清洗