hadoop
文章平均质量分 81
xiaoL_clo
总是三分钟热度的学习,希望这次坚持得久一点
展开
-
Hadoop1.x: 详解Shuffle过程---map和reduce数据交互的关键
文章来源: http://langyu.iteye.com/blog/992916 Shuffle描述着数据从map task输出到reduce task输入的这段过程。 个人理解:map执行的结果会保存为本地的一个文件中:只要map执行 完成,内存中的map数据就一定会保存到本地文件,保存这个文件有个过程 叫做spilll(溢写)转载 2016-01-12 14:40:00 · 439 阅读 · 0 评论 -
hadoop的版本问题
现在hadoop的版本比较乱,常常搞不清楚版本之间的关系,下面简单的摘要了,apache hadoop和cloudera hadoop 的版本的演化. apache hadoop官方给出的版本说明是:1.0.X - current stable version, 1.0 release1.1.X - current beta version, 1.1 release转载 2016-01-12 15:16:15 · 554 阅读 · 0 评论 -
YARN的内存和CPU配置
摘要: Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有...Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置Y转载 2016-11-08 09:46:27 · 2302 阅读 · 0 评论 -
hadoop配置汇总
hadoop 参数配置hadoop 参数 hadoop配置参数 hadoop优化目录[-]Hadoop参数汇总linux参数JVM参数Hadoop参数大全core-default.xmlhdfs-default.xmlyarn-default.xmlHadoop参数汇总@(Hadoop)[配置]linux参转载 2016-11-22 09:58:32 · 2045 阅读 · 0 评论 -
解读Secondary NameNode的功能
1.概述 最近有朋友问我Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?确实,刚接触Hadoop,从字面上看,很容易会把Secondary NameNode当作备份节点;其实,这是一个误区,我们不能从字面来理解,阅读官方文档,我们可以知道,其实并不是这么回事,下面就来赘述下Secondary NameNode的作用。转载 2017-07-14 20:07:56 · 681 阅读 · 0 评论 -
Hadoop2源码分析-准备篇
1.概述 我们已经能够搭建一个高可用的Hadoop平台了,也熟悉并掌握了一个项目在Hadoop平台下的开发流程,基于Hadoop的一些套件我们也能够使用,并且能利用这些套件进行一些任务的开发。在Hadoop的应用级别上,我们接着往后面去研究学习,那就是Hadoop的源码了,作为Hadoop开发人员,我们得去学习和研究Hadoop得实现原理,底层框架的设计,编码的实现过程等等,下面就开始我转载 2017-07-14 20:12:02 · 387 阅读 · 0 评论 -
Hadoop2源码分析-Hadoop V2初识
1.概述 在完成分析Hadoop2源码的准备工作后,我们进入到后续的源码学习阶段。本篇博客给大家分享,让大家对Hadoop V2有个初步认识,博客的目录内容如下所示:Hadoop的渊源Hadoop V2部分项目图各个包的功能介绍 本篇文章的源码是基于Hadoop-2.6.0来分析,其他版本的Hadoop的源码可以此作为参考分析。2.Hadoop的渊源转载 2017-07-14 20:13:12 · 507 阅读 · 1 评论 -
Hadoop2源码分析-MapReduce篇
1.概述 前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapreduce部分,其内容目录如下所示:MapReduce V1MapReduce V2MR V1和MR V2的区别MR V2的重构思路 本篇文章的源码是基于hadoop-2.6.转载 2017-07-14 20:20:02 · 619 阅读 · 0 评论 -
[YARN] Yarn下Mapreduce的内存参数理解
这篇文章算是给自己重新缕清MR下内存参数的含义Container是什么?Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上看到Container的状态基础Yarn的ResourceManger(简称RM)通过逻辑上的队列分配内存,CP转载 2016-11-08 09:42:34 · 11033 阅读 · 1 评论 -
yarn ha
问题导读1.hadoop2.x哪两种HDFS HA的解决方案?2.本文采用的哪种HA方式,HA是如何配置的?以前用hadoop2.2.0只搭建了hadoop的高可用,但在hadoop2.2.0中始终没有完成YARN HA的搭建,直接下载了hadoop最新稳定版本2.6.0完成了YARN HA及HADOOP HA的搭建流程,没有仔细看hadoop的官方文档转载 2016-11-07 16:19:15 · 1568 阅读 · 0 评论 -
hadoop 数据迁移
概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。使用方法转载 2016-11-02 14:56:45 · 4472 阅读 · 0 评论 -
hadoop动态增加节点
基础准备在基础准备部分,主要是设置hadoop运行的系统环境修改系统hostname(通过hostname和/etc/sysconfig/network进行修改)修改hosts文件,将集群所有节点hosts配置进去(集群所有节点保持hosts文件统一)设置NameNode(两台HA均需要)到DataNode的免密码登录(ssh-copy-id命令实现,可以免去c转载 2016-10-28 16:49:06 · 2097 阅读 · 0 评论 -
Hadoop加zookeeper搭建高可靠集群
前期准备1.修改Linux主机名,每台都得配置vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=Hadoop-server12.修改IP /etc/sysconfig/network-scripts/ifcfg-eth03.修改主机名和IP的映射关系vim /etc/hosts192.168转载 2016-10-21 15:28:30 · 488 阅读 · 0 评论 -
hadoop2.X配置SecondaryNameNode
问题导读1.如何将namenode与SecondaryNameNode分开?2.SecondaryNameNode单独配置,需要修改那些配置文件?3.masters文件的作用是什么?我们这里假设你已经安装配置了hadoop2.2,至于如何配置可以参考,hadoop2.2完全分布式最新高可靠安装文档。在这个基础上,我们对配置文件做一些修改:转载 2016-10-21 13:43:01 · 2077 阅读 · 0 评论 -
YARN的内存和CPU配置
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据转载 2016-10-17 17:46:52 · 10204 阅读 · 3 评论 -
Hadoop机架感知
背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块blo转载 2016-10-17 14:30:16 · 280 阅读 · 0 评论 -
CDH4 动态添加datanode和nodemanager
想要在运行中的hadoop集中中动态添加或删除节点,肿么办呢? 【准备工作:】 1. 如是添加节点,则需要将所有新增数据节点上的Hadoop环境都已经按已有环境部署完毕(host、ssh等) 2. 需要的配置项: (1) dfs.hosts 配置存放待上线数据节点名字文件的绝对路径。(俺把所有线上节点都转载 2016-07-13 15:51:13 · 1986 阅读 · 0 评论 -
Hadoop中map数的计算
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.si转载 2016-03-21 17:01:07 · 486 阅读 · 0 评论 -
MapReduce 中的两表 join 几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.转载 2018-02-06 14:51:21 · 1206 阅读 · 0 评论