![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 73
酱g
人望山 鱼窥荷
展开
-
hadoop ha原生态部署
一.部署前准备工作三台linux:Centos6.5 x64 操作系统(需自行安装,先安装一台,然后克隆两台)Hadoop 2.7.3 64位安装包JDK 1.8.0_111Zookeeper 3.4.9 安装包二.集群规划主机名IP地址安装的软件运行的进程bigdata-sg-a-01 (主节点)172.21.14.150JDK、HadoopNameNode、ResourceManager、Q...原创 2018-06-30 15:29:04 · 186 阅读 · 0 评论 -
hadoop 小文件过多优化
大量小文件在mapreduce中的问题 Map tasks通常是每次处理一个block的input(默认使用FileInputFormat)。如果文件非常的小,有大量的这种小文件,那么每一个map task都仅仅处理了非常小的input数据,并且会产生大量的map tasks,hadoop1默认是64M,hadoop2默认是128M,如果过多的小文件,会引起过多的Map tasks h...原创 2018-07-28 14:30:53 · 2209 阅读 · 0 评论 -
hadoop hdfs安全模式
1.namenode的safemode其实namenode在刚启动时候,内存中只有文件和文件的块id及副本数量,不知道所在的datanodenamenode需要等待所有的datanode向他汇报自身持有的快信息,namenode才能在元数据中补全文件块信息中的地址位置只有当namenode找到99.8%的块位置信息,才会退出安全模式,正常对外提供服务 手动开启安全模式的命...原创 2018-07-26 17:19:44 · 174 阅读 · 0 评论 -
hadoop ha原理详解
大致流程图: active会定时的把edits文件同步到journal,借助zk实现分布式协调高可用standby也会实时追加edits文件,简单来说active standby保存两份元数据edits操作文件,同时定时同步JournalNode Hadoop NameNode 高可用 (High Availability) 实现解析在 Hadoop 的整个生态系统...原创 2018-08-03 11:09:09 · 2209 阅读 · 2 评论 -
mapreduce 二次排序 Partitioner/SortComparator/GroupingComparator
翻了以前代码看了下15年时候写的二次排序 哈哈 怀念 实现hadoop自带WritableComparable 序列化排序接口package com.lei.sort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop....原创 2018-07-26 17:22:48 · 438 阅读 · 0 评论 -
mapreduce yran执行详情
Yarn应用程序运行流程剖析Yarn(Yet Another Resource Negotiator)是一个Hadoop集群资源管理系统,Hadoop2时被引入,旨在提高MapReduce的性能,但YARN已足够通用,使得它可以支持其它的分布式应用。Yarn本身提供了一系列API用于用户应用程序与集群资源进行交互,这些API复杂且晦涩难懂,用户通常不会直接使用。用户编制应用程序时,通常使用...原创 2018-08-02 11:35:46 · 205 阅读 · 0 评论 -
mapreduce 原理
mapreduce的shuffle机制3.1.1 概述:mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle; shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分...原创 2018-07-27 15:01:00 · 294 阅读 · 0 评论 -
mapreduce combiner的应用
combiner是MR程序中Mapper和Reducer之外的一种组件 combiner组件的父类就是Reducer combiner和reducer的区别在于运行的位置: Combiner是在每一个maptask所在的节点运行 Reducer是接收全局所有Mapper的输出结果; 4 combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络...原创 2018-08-01 10:34:56 · 269 阅读 · 0 评论 -
Hadoop FileInputFormat中切片的大小的参数 运行详解
通过分析源码在FileInputFormat中,计算切片大小的逻辑:Math.max(minSize, Math.min(maxSize, blockSize)); 切片主要由这几个值来运算决定minsize:默认值:1 配置参数: mapreduce.input.fileinputformat.split.minsize maxsize:默认值:Long.MA...原创 2018-07-24 14:52:16 · 2835 阅读 · 0 评论 -
java 操作hdfs
1.windows mapreduce开发环境linux下进行hadoop应用的开发,不会存在兼容性问题。如在window上做客户端应用开发,需要设置以下环境:A、在windows的某个目录下解压一个hadoop的安装包B、将安装包下的lib和bin目录用对应windows版本平台编译的本地库替换C、在window系统中配置HADOOP_HOME指向你解压的安装包D、在win...原创 2018-07-23 11:24:09 · 171 阅读 · 0 评论 -
hdfs 元数据目录说明
在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘:$HADOOP_HOME/bin/hdfs namenode -format格式化完成之后,将会在$dfs.namenode.name.dir/current目录下如下的文件结构current/|-- VERSION|-- edits_*|-- fsimage_0000000000008...原创 2018-07-19 15:25:20 · 2557 阅读 · 0 评论 -
hadoop secondarynamenode的协调原理
1.namenode如果宕机挂掉.hdfs服务能正常提供正常服务?不能,secondary namenode虽然有元素据信息,但是不能更新元数据,不能充当namenode使用 2.如果namenode的硬盘损坏,元数据是否能恢复,如果能恢复,怎么恢复呢?可以将secondary namenode的元数据目录copy给namenode(可以恢复大部分数据) 3.通过以上的...原创 2018-07-23 11:23:45 · 248 阅读 · 0 评论 -
HDFS 读数据原理
概述客户端将要读取的文件路径发送给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件1. 客户端调用 create 方法,创建一个新的文件;NameNode 会做各种校验,比如文件是否已经存在,客户端是否有权...原创 2018-07-17 11:54:55 · 389 阅读 · 0 评论 -
hadoop hdfs上传文件详解
1 概述客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本2 详细步骤图3 详细步骤解析1、根namenode通信请求上传文件,namenode根据源文件检查目标文件是否已存在 2、na...原创 2018-07-16 12:14:15 · 4096 阅读 · 4 评论 -
HDFS的shell 操作详解
1.HDFS命令行客户端使用HDFS提供shell命令行客户端,查看根目录下使用方法如下:2 命令行客户端支持的命令参数 [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-...原创 2018-07-16 10:55:01 · 539 阅读 · 0 评论 -
hadoop rpc应用
被调用方(也可称为服务端)的业务代码中必须有一个接口,而业务的具体实现写在 此接口的实现类中(jdk的动态代理必须要有接口的),而通过org.apache.hadoop.ipc.RPC(在hadoop-common-2.2.0.jar包中)的一系列方法来发布服务供调用方调用:模拟请求NameNode获取数据块NameNodeProtocol 接口:package com.lei.ha...原创 2018-07-19 16:58:46 · 158 阅读 · 0 评论