![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
大数据爱好者社区
关注博主个人微信公众号:bigdata_shequ,每天会更新大数据、人工智能前沿技术!
展开
-
cdh版本的hadoop安装及配置(伪分布式模式) MapReduce配置 yarn配置
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!安装hadoop需要jdk依赖,我这里是用jdk8jdk版本:jdk1.8.0_151hadoop版本:hadoop-2.5.0-cdh5.3.6hadoop下载地址:链接:https://pan.baidu.com/s/1qZNeVFm 密码:cilnjdk下载地址:链接:https:/...原创 2018-05-10 23:16:44 · 2226 阅读 · 1 评论 -
Mapreduce & yarn
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!特点:1、分布式并行计算2、主要核心功能:排序,默认的排序方式是按照key进行排序概念定义:1、MapReduce执行流程涉及到Client、ResourceManager、NodeManager、ApplicationMaster、Container、Task2、其中Client是提交Mapr...原创 2018-06-08 10:47:36 · 582 阅读 · 0 评论 -
详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!前言 hadoop是分布式系统,运行在linux之上,配置起来相对复杂。对于hadoop1,很多同学就因为不能搭建正确的运行环境,导致学习兴趣锐减。不过,我有免费的学习视频下载,请点击这里。 hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支...转载 2018-06-08 09:54:51 · 353 阅读 · 0 评论 -
Hadoop 学习笔记一 基础知识及常用命令
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!了解Hadoop简介 Hadoop目前属于Apache基金会,是针对海量数据处理的理想工具。我的学习教材主要是Hadoop权威指南(中文版)。 Hadoop起源于Nutch,在Yahoo的帮助下,Nutch的分布式运算这部分被独立出来,命名为Hadoop。Hadoop克隆了Google运行系统...转载 2018-05-27 22:19:16 · 593 阅读 · 0 评论 -
MapReduce-TopK
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!上一篇博客中简单的写了一个MapReduce的程序,其中只重写了map()和reduce()方法,但里面还有cleanup(Context context),setup(Context context)和run(Context context)方法可以可以重写这一个实例,我们就说明一下cleanup(Co...转载 2018-05-27 21:46:40 · 593 阅读 · 0 评论 -
MapReduce-Join中级优化-hadoop自带datajoin的解决方法
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!接着上一篇《MapReuce-Join操作-初级优化》这一篇博客继续说明MapReduce对于Join的操作,这里使用hadoop包中自带的datajoin包来处理,如果是hadoop1.x则包在${HADOOP_HOME}/contrib/datajoin文件夹下。如果是hadoop2.x则该包在${H...转载 2018-05-27 21:43:57 · 187 阅读 · 0 评论 -
MapReuce-Join操作-初级优化
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!在上一篇《MapReduce-Join操作-初体验》的结论中说明了上述join方法的不足之处,这一篇中将说明针对上一篇的几个缺陷进行一些一些改进,主要是针对上一篇提到几点:1.效率低是因为在reduce端遍历了两次集合2.资源的消耗大是因为重新创建了List来放几乎所有的迭代器中的数据3.不能适用于所有的...转载 2018-05-27 21:41:47 · 171 阅读 · 0 评论 -
MapReduce-Join操作-初体验
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!这一篇博客说说mapreduce的join问题,根据join的文件分别的数据量的大小,可以使用以下几种方式可以选择1.repartition join -- reduce-side join 适用于合并两人个或多个更多的大型数据2.replication join -- map-side join 适用于...转载 2018-05-27 21:38:24 · 199 阅读 · 0 评论 -
MapReduce-XML处理-自定义OutputFormat以及自定义RecordWriter
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!这一篇紧接上一篇博客《MapReduce-XML处理-自定义InputFormat及自定义RecordReader》,上一篇是说明InputFormat和RecordReader,这里说明OutputFormat以及RecordWriter的定制,下面是这次测试的要求:输入数据:<configura...转载 2018-05-27 21:30:02 · 405 阅读 · 0 评论 -
MapReduce-XML处理-自定义InputFormat及自定义RecordReader
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!这一篇说明如何自定义InputFormat以及RecordReader这两个组件,通过使用mapreduce处理xml文件格式的文件来说明其用法,这一个例子来自《hadoop硬实战》一书的技术点12讲解的用法,如果有说明得不清楚的可以自行进行查阅下面就来说说这个实例要达到的目的以下是输入数据:<co...转载 2018-05-27 15:49:34 · 716 阅读 · 0 评论 -
Hadoop二次排序及MapReduce处理流程实例详解
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框架的...转载 2018-05-27 12:31:31 · 293 阅读 · 0 评论 -
在Windows下开发hadoop
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!1、安装Myeclipse(这还用说嘛???)2、将hadoop-eclipse-plugin-2.6.0.jar(这个jar百度下应该是有的)这个jar放在Myeclipse的安装目录的plugins3、在Windows解压hadoop-2.5.0.tar.gz,然后配置hadoop的环境变量(...原创 2018-05-27 10:22:42 · 402 阅读 · 0 评论 -
彻底理解MapReduce shuffle过程原理
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过...原创 2018-06-08 11:10:24 · 427 阅读 · 0 评论