![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
大数据爱好者社区
关注博主个人微信公众号:bigdata_shequ,每天会更新大数据、人工智能前沿技术!
展开
-
cdh版本的hadoop安装及配置(伪分布式模式) MapReduce配置 yarn配置
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 安装hadoop需要jdk依赖,我这里是用jdk8 jdk版本:jdk1.8.0_151 hadoop版本:hadoop-2.5.0-cdh5.3.6 hadoop下载地址:链接:https://pan.baidu.com/s/1qZNeVFm 密码:ciln jdk下载地址:链接:https:/...原创 2018-05-10 23:16:44 · 2226 阅读 · 1 评论 -
彻底理解MapReduce shuffle过程原理
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle过...原创 2018-06-08 11:10:24 · 427 阅读 · 0 评论 -
Mapreduce & yarn
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 特点: 1、分布式并行计算 2、主要核心功能:排序,默认的排序方式是按照key进行排序 概念定义: 1、MapReduce执行流程涉及到Client、ResourceManager、NodeManager、ApplicationMaster、Container、Task 2、其中Client是提交Mapr...原创 2018-06-08 10:47:36 · 582 阅读 · 0 评论 -
MapReduce-TopK
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 上一篇博客中简单的写了一个MapReduce的程序,其中只重写了map()和reduce()方法,但里面还有cleanup(Context context),setup(Context context)和run(Context context)方法可以可以重写这一个实例,我们就说明一下cleanup(Co...转载 2018-05-27 21:46:40 · 593 阅读 · 0 评论 -
MapReduce-Join中级优化-hadoop自带datajoin的解决方法
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 接着上一篇《MapReuce-Join操作-初级优化》这一篇博客继续说明MapReduce对于Join的操作,这里使用hadoop包中自带的datajoin包来处理,如果是hadoop1.x则包在${HADOOP_HOME}/contrib/datajoin文件夹下。如果是hadoop2.x则该包在${H...转载 2018-05-27 21:43:57 · 187 阅读 · 0 评论 -
MapReuce-Join操作-初级优化
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 在上一篇《MapReduce-Join操作-初体验》的结论中说明了上述join方法的不足之处,这一篇中将说明针对上一篇的几个缺陷进行一些一些改进,主要是针对上一篇提到几点:1.效率低是因为在reduce端遍历了两次集合2.资源的消耗大是因为重新创建了List来放几乎所有的迭代器中的数据3.不能适用于所有的...转载 2018-05-27 21:41:47 · 171 阅读 · 0 评论 -
MapReduce-Join操作-初体验
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 这一篇博客说说mapreduce的join问题,根据join的文件分别的数据量的大小,可以使用以下几种方式可以选择1.repartition join -- reduce-side join 适用于合并两人个或多个更多的大型数据2.replication join -- map-side join 适用于...转载 2018-05-27 21:38:24 · 199 阅读 · 0 评论 -
MapReduce-XML处理-自定义OutputFormat以及自定义RecordWriter
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 这一篇紧接上一篇博客《MapReduce-XML处理-自定义InputFormat及自定义RecordReader》,上一篇是说明InputFormat和RecordReader,这里说明OutputFormat以及RecordWriter的定制,下面是这次测试的要求:输入数据:<configura...转载 2018-05-27 21:30:02 · 405 阅读 · 0 评论 -
MapReduce-XML处理-自定义InputFormat及自定义RecordReader
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 这一篇说明如何自定义InputFormat以及RecordReader这两个组件,通过使用mapreduce处理xml文件格式的文件来说明其用法,这一个例子来自《hadoop硬实战》一书的技术点12讲解的用法,如果有说明得不清楚的可以自行进行查阅下面就来说说这个实例要达到的目的以下是输入数据:<co...转载 2018-05-27 15:49:34 · 716 阅读 · 0 评论 -
深入解析mapreduce中shuffle的工作原理
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 定义 shuffle:针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。 由图可见Shuffle过程横跨了map,reduce两端,所以为了方便讲解,我们在下面分为两个部分进行讲解:map端和reduce端 ...转载 2018-06-08 11:26:45 · 487 阅读 · 0 评论