![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
一只懒得睁眼的猫
励志成为一个技术大牛!
展开
-
大数据面试题目
一、数据结构与算法 1.二叉树前序、中序、后续遍历方式(递归以及非递归) 2.二叉树的深度以及广度遍历方式 3.二叉树遍历情况中所有连续节点的最大的值 4.求数组所有可能的子数组 5.给定一个数,求一个有序数组的两个数的和满足这个数(可以拓展一下变成两个无序的数组) 6.求一个数组的第二大值 7.大文件(不能加载进内存)的排序问题 8...原创 2018-12-08 10:22:06 · 665 阅读 · 2 评论 -
Job作业提交源码分析
Job作业提交源码分析:原创 2016-10-19 15:33:14 · 691 阅读 · 0 评论 -
深入理解与应用Hadoop中的MapReduce
现在大数据是越来越火了,而我自己研究这方面也很长时间了,今天就根据我自己的经验教会大家玩转MapReduce,下文中将MapReduce简写为MR。 本篇博客将结合实际案例来具体说明MR的每一个知识点。1、本篇博客核心内容:2、MR的基本概念3、MR中map()函数和reduce()函数如何编写4、MR程序的基本编写流程(MR的基本执行过程) 下面将用一个具体的电信业务说明MR最基本的编写原创 2018-11-28 19:23:26 · 17983 阅读 · 2 评论 -
MapReduce常见算法
2016年4月6日18:28:29MapReduce常见算法作者:数据分析玩家 对于MapReduce,常见的算法有单词计数、数据去重、排序、TopK、选择、投影、分组、多表链接、单表关联。本文将具体阐述两个算法:数据去重与TopK。 为了让大家看的更清楚,现在将所用数据grade.txt数据列出:HeBei 568HeBei 313HeBei 60原创 2016-04-06 18:53:08 · 2869 阅读 · 0 评论 -
基于Yarn平台的MapReduce运行机制
基于Yarn平台的MapReduce运行机制如下图所示: 详细步骤: 1>用户向yarn平台提交应用程序 2>yarn平台的ResourceManager接收到我们客户端提交给的MapReduce程序后,把程序交给某个NodeManager节点,随后在这个NodeManager节点上启动一个进程— MRAppMaster 3>MRAppMaster首先向ResourceManager注册原创 2016-07-08 19:17:05 · 1157 阅读 · 0 评论 -
Hadoop中的自定义数据类型(序列化、反序列化机制)详解
大家都知道,Hadoop中为Key的数据类型必须实现WritableComparable接口,而Value的数据类型只需要实现Writable接口即可;能做Key的一定可以做Value,能做Value的未必能做Key.但是具体应该怎么应用呢?—-本篇文章将结合手机上网流量业务进行分析。 先介绍一下业务场景:统计每个用户的上行流量和,下行流量和,以及总流量和。 本次描述所用数据: 日志格式描述:原创 2016-07-07 15:18:06 · 3031 阅读 · 0 评论 -
MapReduce程序运行流程
2016年4月6日10:34:10MapReduce程序运行流程参考:https://blog.csdn.net/alex_bean/article/details/51469630作者:数据分析玩家 一直以来虽然都在学习hadoop,也打算写一篇关于MapReduce程序运行流程的博客文章,但是一直没有时间,今天抽空写一篇,本篇文章尽量写的详细,如有问题请读者留言。 ...原创 2019-03-08 21:15:06 · 4743 阅读 · 2 评论 -
MapReduce程序开发中的FileInputFormat与TextInputFormat
2016年4月3日20:17:44 MapReduce程序开发中的FileInputFormat与TextInputFormat 在MapReduce程序的开发过程中,往往需要用到FileInputFormat与TextInputFormat,但是这两个类究竟是用来做什么的,在源代码的追踪过程中,我们会发现TextInputFormat这个类继承自FileIn原创 2016-04-03 21:14:24 · 7032 阅读 · 1 评论