MapReduce
MapReduce
不温卜火
这个作者很懒,什么都没留下…
展开
-
MapReduce快速入门系列(16) | MapReduce开发总结
此篇文章讲述的是MapReduce的开发总结,希望能够帮助到各位小可爱呀!目录1. 输入数据接口:InputFormat2. 逻辑处理接口:Mapper3. Partitioner分区4. Comparable排序5. Combiner合并6. Reduce端分组:GroupingComparator7. 逻辑处理接口:Reducer8. 输出数据接口:OutputFormat在编写Ma...原创 2020-04-30 09:05:32 · 5776 阅读 · 43 评论 -
MapReduce快速入门系列(15) | MapReduce之数据清洗进阶版本
此片博文是上篇博文的拓展进阶部分。目录1. 需求2. 代码实现3. 运行及结果1. 需求 对Web访问日志中的各字段识别切分,去除日志中不合法的记录。根据清洗规则,输出过滤后的数据。 1. 输入数据 2. 期望输出数据都是合法的数据2. 代码实现 1. 定义一个bean,用来记录日志数据中的各数据字段package com.buwenbuhuo.ETLcompl...原创 2020-04-29 13:30:56 · 5144 阅读 · 40 评论 -
MapReduce快速入门系列(14) | MapReduce之计数器应用及简单的数据清洗(ETL)
本次博主分享的是MapReduce的另一进阶知识计数器应用及数据清洗(ETL)。希望大家能够喜欢目录一. 计数器应用1.1 计数器API1.2 计数器案例二. 简单的数据清洗案例2.1 需求2.2 需求分析2.3 代码实现2.4 运行及结果一. 计数器应用 Hadoop为每个作业维护若干内置计数器,以描述多项指标。 比如说,某些计数器记录已处理的字节数和记录数,使用户可监控已处理...原创 2020-04-29 11:34:38 · 4892 阅读 · 21 评论 -
MapReduce快速入门系列(13) | MapReduce之reduce端join与map端join算法实现
本片博文博主为大家讲解MapReduce之Join的多种应用。目录一. Reduce Join1.1 Reduce Join 工作原理1.2 Reduce Join 案例1. 需求2. 需求分析3. 完成代码4. 查看运行结果二. Map Join2.1 使用场景2.2 优点2.3 具体办法:采用DistributedCache2.4 Map Join案例1. 需求2. 需求分析3. 代码...原创 2020-04-29 09:11:40 · 4619 阅读 · 21 评论 -
MapReduce快速入门系列(12) | MapReduce之OutputFormat
前面我们讲解了MapTask,ReduceTask和MapReduce运行机制。,那么这篇文章博主继续为大家讲解OutputFormat数据输出。目录一. OutputFormat接口实现类1.1 文本输出TextOutputFormat1.2 SequenceFileOutputFormat1.3 ==自定义OutputFormat==二. 自定义OutputFormat的使用场景和步骤2...原创 2020-04-29 09:11:02 · 5380 阅读 · 42 评论 -
MapReduce快速入门系列(11) | MapTask,ReduceTask以及MapReduce运行机制详解
前面我们讲解了MapReduce的Shuffle机制,那么这篇文章博主继续为大家讲解MapTask,ReduceTask和MapReduce运行机制。目录一. MapTask运行机制详解以及Map任务的并行度二. ReduceTask 工作机制以及reduceTask的并行度三. MapReduceshuffle过程四. MapReduce总体工作机制一. MapTask运行机制详解以...原创 2020-04-28 11:00:04 · 5752 阅读 · 42 评论 -
MapReduce快速入门系列(10) | 二次排序和辅助排序案例(GroupingComparator分组)
Hello,大家好!博主上篇讲解了合并,这篇要讲的是辅助排序。如何讲解这个章节呢?首先先对什么是合并进行解释,然后通过案例进行证明。目录一. GroupingComparator分组的简介二. 根据案例分析2.1 需求2.2 需求分析2.3 代码实现1. 定义订单信息OrderBean类2. 编写OrderSortMapper类3. 编写OrderSortGroupingComparator...原创 2020-04-28 08:46:42 · 5906 阅读 · 44 评论 -
MapReduce快速入门系列(9) | Shuffle之Combiner合并
Hello,大家好!博主上篇讲解了分区,这篇要讲的是合并操作。如何讲解这个章节呢?首先先对什么是合并进行解释,然后通过案例进行证明。目录一. Combiner合并的简单介绍二. 通过图片了解使用Combiner和不使用的区别三. 代码实现3.1 编写Mapper类3.2 编写Reducer类3.3 编写Driver驱动类四. 对比及结论一. Combiner合并的简单介绍 今天我们...原创 2020-04-28 08:46:10 · 5014 阅读 · 19 评论 -
MapReduce快速入门系列(8) | Shuffle之排序(sort)——区内排序
上一篇博文讲了Shuffle排序的相关概念以及全排序的操作,这篇博文继续分享的是排序的另一种操作:区内排序。目录一. 需求分析二. 代码实现2.1 增加自定义分区类MyPartitioner22.2 在驱动类中添加分区类三. 运行及其结果一. 需求分析 基于前一个需求,增加自定义分区类,分区按照省份手机号设置。 1. 把原数据排序后 2. 期望数据输出二. 代码实现2...原创 2020-04-27 12:41:58 · 5081 阅读 · 43 评论 -
MapReduce快速入门系列(7) | Shuffle之排序(sort)详解及全排序
上篇博文给大家带来的是分区的介绍以及怎样自定义分区,这次博主为大家带来的是关于排序的博文,希望大家能够喜欢。目录一. Shuffle之排序(sort)1.1 排序的简单介绍1.2 排序的分类1.3 自定义排序二. WritableComparable排序案例2.1 需求2.2 需求分析2.3 编写代码一. Shuffle之排序(sort) 今天我们讲的是第六步,sort排序操作。...原创 2020-04-27 10:47:07 · 5842 阅读 · 20 评论 -
MapReduce快速入门系列(6) | Shuffle之Partition分区
在之前的博客《MapReduce系列(5) | MapReduce任务流程和shuffle机制的简单解析》,博主为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客博主分享的是Shuffle之Partition分区详解。目录一. Shuffle之Partition分区1.1. 默认Partition分区1.2. 自定义Partitioner1.3. 分区...原创 2020-04-27 09:10:08 · 5763 阅读 · 42 评论 -
MapReduce快速入门系列(5) | MapReduce任务流程和shuffle机制的简单解析
Hello,大家好,在本系列的第一篇博文中,博主已经为大家介绍了MapReduce的相关概念。其中谈到了MapReduce主要由Map和Reduce两个过程组成!事实上,为了让Reduce可以并行处理Map的结果,需要对Map的输出进行一定的分区(Partition),排序(Sort),合并(Combine),分组(Group)等操作,得到<key,value-list>形式的中间结...原创 2020-04-26 14:41:51 · 5151 阅读 · 21 评论 -
MapReduce快速入门系列(4) | Hadoop序列化
Hello,大家好,本次为大家带来的是Hadoop的序列化操作。目录一. 序列化的简单介绍1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化二. 自定义bean对象实现序列化接口三. 序列化的实际操作展示3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序1. 编写流量统计的Bean对象2. 编写Mapper类3. 编写Reducer类4. 编...原创 2020-04-26 12:50:46 · 4029 阅读 · 26 评论 -
MapReduce快速入门系列(3) | jar包如何在集群上测试
上一篇博客《什么是MapReduce(入门篇)》讲的是WordCount案例在本地的实际操作,这篇讲述的是在集群上的操作过程。目录1. 添加打包插件依赖2. 将程序打成jar包,然后拷贝到Hadoop集群中2.1 打包过程2.2 修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群。3. 执行WordCount程序1. 添加打包插件依赖用maven打jar包,需...原创 2020-04-26 09:26:56 · 3929 阅读 · 19 评论 -
MapReduce快速入门系列(2) | 统计输出给定的文本文档每一个单词出现的总次数
相信大家看了博主上一篇博客《什么是MapReduce》后,对MapReduce的概念有了更深的认知!本篇博客,博主给大家带来的是MapReduce的一个简单的实战项目——统计输出给定的文本文档每一个单词出现的总次数。目录1. 创建Maven工程2. 编写程序2.1 编写Mapper类2.2 编写Reducer类2.3 编写Driver驱动类2.4 运行在进行之前我们先看一下我们的数据源:...原创 2020-04-25 14:52:43 · 4850 阅读 · 20 评论 -
MapReduce快速入门系列(1) | 什么是MapReduce
随着HDFS系列的完结,下面就到了MapReduce系列了,很荣幸各位小伙伴们能够继续一如既往的观看博主的博文。目录1. MapReduce的核心思想2. 分布式并行计算框架MapReduce3. MapReduce设计构思1. 如何对付大数据处理:分而治之2. 构建抽象模型:Map和Reduce3. 统一构架,隐藏系统层细节1. MapReduce的核心思想MapReduce思想在生...原创 2020-04-25 12:03:09 · 4961 阅读 · 40 评论