Hadoop
文章平均质量分 69
青青青的菜地
这个作者很懒,什么都没留下…
展开
-
HDFS三进程启动IP更改教程
HDFS启动后会有三个进程,在官网默认配置时,只有Namenode的更改方式如下图所示,更改localhost为指定IP即可完成对Namenode启动ip的更改。 但关于Datenode和Secondarynamenode启动ip的更改,官网并没有给出,在启动过程也是以默认进程启动,如下图所示。 以下内容来详细讲解Datenode和Secondarynamenode启动ip的更...原创 2018-06-02 19:39:53 · 1297 阅读 · 0 评论 -
MapReduce的“Hello world”和Shuffle初步理解
前言:任何一种编程语言,开场白基本都是“Hello World”,那么对于Hadoop的计算框架MapReduce一样有着自己的“开场白”,那就是“WordCount”,词频统计这一实例,在任何一个版本的Hadoop安装程序中都会有,下面也会给大家初步介绍如何启动,并分享一下我对Shuffle的初步理解WordCount实例启动1.创建任意文本并上传到HDFShadoop-2.8.1]$...原创 2018-06-16 13:40:04 · 390 阅读 · 0 评论 -
浅谈YARN中Container容器(内存、CPU分配)
前言:hadoop2.x版本和hadoop1.x版本的一个区别就是:hadoop1.x中负责资源和作业调度的是MapReduce,hadoop2.x版本后,MapReduce只专注于计算,资源和作业的调度由YARN来负责。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。我们的应用在工作的时候,需要消耗内存和CPU,故当YARN收到application申请...原创 2018-06-08 16:29:58 · 14971 阅读 · 1 评论 -
MapReduce2架构设计(YARN工作流程(MR提交应用程序))
前言:MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但是要写出有用的程序缺不太容易。本篇文章主要介绍MapReduce2(YARN),会附带介绍MapReduce1的架构。...原创 2018-06-16 13:39:55 · 1053 阅读 · 0 评论 -
Hadoop编译和伪分布式部署(HDFS、YARN)
本次hadoop源码包版本信息:hadoop-2.8.1-src.tar.gz,如有需要请到http://hadoop.apache.org这个网址去下载。Hadoop广义: 以Hadoop为主的生态圈狭义: Apache Hadoop2.X 3.X组件 HDFS 分布式存储 MapReduce 分布式计算 job1 Yarn 资源和作业调度和管理平台 Spark Ap...原创 2018-06-01 15:41:06 · 1146 阅读 · 0 评论 -
Hadoop编译环境组件搭建
上接小编另外一篇博客:Hadoop编译Requirements: Unix System *JDK 1.7+ Maven 3.0 or later Findbugs 1.3.9 (if running findbugs) ProtocolBuffer 2.5.0 首先将需要的文件上传到/opt/software中,如需安装包的小伙伴请留言。JDK1.7+安装1、首先查看是否安装J...原创 2018-06-01 11:46:58 · 539 阅读 · 0 评论 -
MapReduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架...转载 2018-06-07 14:12:07 · 8638 阅读 · 0 评论 -
YARN and MapReduce的内存优化配置详解
在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力,...转载 2018-06-07 14:02:02 · 2063 阅读 · 0 评论 -
YARN的Memory和CPU调优配置详解
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每两个co...转载 2018-06-07 13:59:20 · 3728 阅读 · 0 评论 -
若泽数据-早课(2018/5/30)
1、sudo 和su的分别是什么命令?su命令的全称就是switch user,其意思就是切换用户身份,使得用户可以在shell中以其他身份运行程序。除非该用户自己是超级用户,那么切换用户身份时均需要密码。sudo命令是允许系统管理员让普通用户执行一些或全部的需要root权限的命令的工具。2、怎样给一个用户赋予sudo权限,修改什么配置文件,添加哪行?root权限下vi /etc/sudoer...原创 2018-05-30 11:48:25 · 324 阅读 · 0 评论 -
若泽数据-早课(2018/6/5)
1、vi,清空文件内容,然后从window记事本拷贝内容去Linux文件里,哪些命令?注意点是什么? 命令模式下gg跳到行首第一个字符,dG删除光标所在到最后一行数据。i进入编辑模式将内容拷贝到文件中,注意要在编辑模式下完成文件的拷贝。2、执行一个命令,说not found,那么你们觉得该怎么办? 首先检查所执行命令是否正确,若正确则:which 命令 查询命令是否存在,若不存在,可以...原创 2018-06-05 11:12:12 · 320 阅读 · 0 评论 -
若泽数据-早课(2018/6/4)
1、hdfs架构是什么架构? hdfs架构为主/从架构,管理者Namenode和工作者Datanode。2、hdfs哪些进程? 总共有三个进程:Namenode、Datanode和Secondarynamenode3、hdfs dfs等价与什么命令? hdsf dfs等价于hadoop fs4、hdfs的NN节点是做什么的? 管理文件系统的命名空间。维护着文件系统书以及整棵...原创 2018-06-05 10:08:19 · 467 阅读 · 1 评论 -
jps详解
首先jps的目录在java中,如下图所示。jps主要用于查看java进程,在查看hdfs的启动进程时可以代替ps -ef | grep hdfs命令。 在讨论jps时,我们可以把用户切换到root用户下,然后jps查看进程,会出现以下问题,如下图所示,显示进程信息不可用(process information unavailale) 在企业中,若进程不可用,先用 ps -ef ...原创 2018-06-02 20:03:23 · 4292 阅读 · 0 评论 -
YARN详解(YARN架构设计、常用命令、三种调度器)
YARN架构设计也是主从架构,分为Resource Mananger(RM)和Node Manager(NM),其中RM主要负责应用管理和资源调度,NM主要负责容器和作业。一、YARN架构介绍YARN架构图如上图所示,详细介绍如下:ResourceManager(RM):负责对各NM上的资源进行统一管理和调度,将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配...原创 2018-06-16 13:40:00 · 2162 阅读 · 0 评论