hadoop
KevinWDong
这个作者很懒,什么都没留下…
展开
-
HDFS写数据为什么不直接分发给三个节点,而是构建pipeline管道?
HDFS写数据为什么不直接分发给三个节点,而是构建pipeline管道?HDFS数据写入时是构建一个pipeline,将数据先写入第一个节点,然后第一节点写给第二节点,然后第二节点写给第三节点,然后写入才完成。如果是同步的,每次写操作都必须要等待第三个节点写完并返回成功后才能写下一条数据,那么确实和直接分发给三个节点是一样的。如果写给第一个节点后,write即可返回,进行下一次写操作了。这时,第一个节点一边在给下一个节点写数据,一边在接收client传来的数据。同时利用了输入输出带宽。假设每次从一个节点原创 2020-09-26 22:36:16 · 709 阅读 · 0 评论 -
Hadoop集群一键启动和关闭脚本
hadoop在启动集群时,需要启动hdfs和yarn集群。启动hdfs和yarn可以使用start-dfs.sh ,start-yarn.sh 或者单节点一个一个启动,但是这样比较麻烦,所以这里准备写一个脚本,一键启动hdfs和yarn。群起脚本#!/bin/bashecho "*********************正在开启集群服务****************************...原创 2018-12-23 23:05:59 · 7712 阅读 · 1 评论 -
YARN工作机制
一、YARN概述YARN是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二、YARN的重要概念yarn并不清楚用户提交的程序 运行机制yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)yarn中的主管角色叫ResourceManageryarn中具...原创 2018-12-16 22:23:07 · 320 阅读 · 0 评论 -
MapReduce执行流程详解
文章转载自:https://www.cnblogs.com/sunfie/p/4651609.html一、MapReduce执行过程MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示:整个流程图具体来说:每个Mapper任务是一个java进程,它会读取HDFS中的文件,解析成...转载 2018-12-15 15:58:57 · 2041 阅读 · 0 评论 -
【namenode格式化失败】HA中格式化namenode 失败问题
在配置IHA时,格式化namenode时失败。原因是在格式化namenode时,我将所有的节点都关闭了,这其中包括了journalnode节点!!!导致了namenode1 和namenode2之间无法通信。所以解决方案就是将各个journalnode节点开启就好。开启各个节点的journalnodenamenode 节点格式化成功 。问题解决!!!...原创 2018-12-19 14:47:44 · 3243 阅读 · 3 评论 -
MapReduce之自定义WordCount案例
在一堆给定的文本文件中统计输出每一个单词出现的总次数。1.分析mapper阶段:将mapstack 传给我们的文本信息内容先转换成string。根据空格将一行切分成单词。将单词输出为<单词,1>的格式。reducer阶段汇总各个key的个数输出该key的总数driver阶段获取配置信息指定本程序的jar所在的本地路径关联mapper和reducer类...原创 2018-12-13 11:05:44 · 363 阅读 · 0 评论 -
【问题】多次格式化namenode导致节点无法启动问题
多次对namenode进行格式化导致节点无法启动的解决 多次格式化namenode造成了namenode和datanode的clusterID不一致!每次格式化时,namenode会更新clusterID,但是datanode只会在首次格式化时确定,因此就造成不一致现象。这里提供了两种解决办法:1.打开core-site.xml文件里面配置的目录打开namenode 对应的current...原创 2018-12-06 11:49:56 · 3960 阅读 · 2 评论 -
客户端通过API操作HDFS
一、前期准备jar包准备解压hadoop的压缩包,进入share文件夹,将其中的jar包放入一个文件夹中,在eclipse中导入。2.配置环境变量配置HADOOP_HOME环境变量二、API操作HDFS操作HDFS步骤主要有三步1.获取文件系统2.对文件进行操作3.关闭资源1.文件上传public static void main(String[] args) thro...原创 2018-12-06 11:29:36 · 403 阅读 · 0 评论 -
Hadoop HDFS常用命令
一、基本语法bin/hadoop fs 具体命令二、常用命令实操-help:输出这个命令的参数bin/hdfs dfs -help rm-ls :显示目录信息-mkdir:在hdfs 上创建目录-moveFromLcoal:从本地剪切粘贴到hdfs-moveToLocal: 从hdfs剪切粘贴到本地-cat:显示文件内容-tail :显示一个文件的末尾-text:以字符形...原创 2018-12-03 10:39:22 · 295 阅读 · 0 评论 -
伪分布式运行Hadoop实例之yarn运行MapReduce实例
一、配置集群配置yarn-env.sh文件配置一下JAVA_HOME配置yarn-site.xml<!-- reducer获取数据的方式 --><property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value&...原创 2018-11-30 14:58:17 · 566 阅读 · 0 评论 -
伪分布式运行Hadoop实例之HDFS运行MapReduce程序
一、前期准备准备一台客户机安装jdk配置环境变量安装Hadoop配置环境变量二、配置集群配置hadoop-env.sh文件cd /opt/module/hadoop-2.7.2/etc/hadoopvim hadoop-env.sh配置core-site.xml这个文件也在hadoop目录下<!-- 指定HDFS中NameNode的地址 --><...原创 2018-11-29 23:55:27 · 1208 阅读 · 0 评论 -
本地文件运行hadoop案例
一、Hadoop的运行模式Hadoop有三种运行模式:本地模式、伪分布式模式和完全分布式模式。 本地模式,顾名思义,就是在一台linux服务器进行安装,这种模式也是Hadoop的默认模式,在这种安装模式下Hadoop的core-site.xml、mapred-site.xml、hdfs-site.xml等配置文件都是空的,不需要配置。 在本地模式下,Hadoop单独运行,不与其他节点进行...原创 2018-11-29 18:19:11 · 443 阅读 · 0 评论 -
linux安装Hadoop
之前发布过一篇linux环境下安装jdk,此次安装Hadoop和之前的流程是一样的。进入到hadoop 的安装路径下cd /opt/software/解压安装包到module目录下tar -zxf hadoop-2.7.2.tar.gz -C /opt/module/查看是否解压成功ls /opt/module/配置Hadoop中的hadoop-env.sh文件1...原创 2018-11-24 23:31:59 · 597 阅读 · 0 评论