文章目录
零、学习目标
- 理解数据去重
- 实现数据去重
一、导入新课
- 通过上节课的学习,我们熟悉了MapReduce经典案例——倒序索引的具体实现流程。本节课将针对MapReduce经典案例——数据去重进行详细讲解。
二、新课讲解
(一)案例分析
1、数据去重介绍
- 数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选,数据去重指去除重复数据的操作。在大数据开发中,统计大数据集上的多种数据指标,这些复杂的任务数据都会涉及数据去重。
2、案例需求及分析
-
文件file1.txt本身包含重复数据,并且与file2.txt同样出现重复数据,现要求使用Hadoop大数据相关技术对以上两个文件进行去重操作,并最终将结果汇总到一个文件中。