hadoop
WQ同学
这个作者很懒,什么都没留下…
展开
-
hadoop-hdfs 伪分布式搭建
简介本篇文章主要介绍的是hadoop伪分布式安装hdfs. 首先要确保 jdk 配置成功了 (如果不会可以参考这篇文章http://www.haha174.top/article/details/259178) 然后下载hadoop我使用的是 hadoop-2.6.0-cdh5.7.0.tar.gz版本 使用的环境是centos7 的虚拟机 如果不会搭建虚拟机可以参考这篇文章(http原创 2017-12-12 23:51:28 · 2964 阅读 · 0 评论 -
HDFS HA 高可用
一.简介在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。本文主要从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameNode 的共享存储实现分析。在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS N...转载 2019-01-27 10:19:30 · 1265 阅读 · 0 评论 -
hadoop namenode启动过程
NameNode启动过程详细剖析1. FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpoint.p...转载 2019-01-22 08:27:52 · 2215 阅读 · 0 评论 -
MapReduce shuffle性能调优
性能调优如果能够根据情况对shuffle过程进行调优,对于提供MapReduce性能很有帮助。相关的参数配置列在后面的表格中。一个通用的原则是给shuffle过程分配尽可能大的内存,当然你需要确保map和reduce有足够的内存来运行业务逻辑。因此在实现Mapper和Reducer时,应该尽量减少内存的使用,例如避免在Map中不断地叠加。运行map和reduce任务的JVM,内存通过mapr...转载 2019-01-26 19:16:10 · 1839 阅读 · 1 评论 -
MapReduce shuffle过程详解
MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图:Mapper的输出排序、然后传送到Reducer的过程,称为shuffle。本文详细地解析shuffle过程,深入理解这个...转载 2019-01-26 19:08:01 · 1307 阅读 · 0 评论 -
并行计算框架MapReduce编程模型
一. 简介MapReduce计算框架是Google提出的一种并行计算框架,是Google云计算模型MapReduce的java开源实现,用于大规模数据集(通常1TB级以上)的并行计算。但其实,MR不仅是一种分布式的运算技术,也是简化的分布式编程模式,是用于解决问题的程序开发模型。二.MapReduce基本编程模型和框架一种分布式计算模型,解决海量数据的计算问题MapReduce 将整个并...原创 2019-01-26 18:20:42 · 2654 阅读 · 0 评论 -
YARN 对集群的资源调度
一. YARN 资源管理资源调度和资源管理 隔离是YARN 作为一个资源管理的系统,最重要和最基础的两个功能。资源调度有ResourceManager 完成,而资源隔离由各个NodeManager 实现ReourceManager 将某个NodeManager 上的资源分配给任务(这个就是所谓的资源调度)后,NodeManager 需按照要求为任务提供响应的资源,甚至保证这些资源应具有独占性...原创 2019-01-26 16:32:50 · 1488 阅读 · 0 评论 -
yarn 架构组件功能详解
一.YARN服务组件YARN 总体上仍是Master/Slave 结构 在整个资源管理框架中ResourceManager 为master ,NodeManager 为Slave 。ResourceManager 负责 对各个NodeManager 上的资源进行同一的管理和调度当用户提交一个应用程序时,需要一个用以跟踪和管理这个程序的服务ApplicationMaster 它负责向Res...原创 2019-01-26 15:21:43 · 3368 阅读 · 3 评论 -
HDFS架构详解
一.HDFS来源源自于google 的GFS论文,全名Hadoop Distributed File System主要有下面几个特点易于扩展的分布式文件系统运行在大量的普通廉价的机器上,提供容错机制为大量用户提供性能不错的文件存储服务二.NameNodenamenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的命名空间(name space),以及...原创 2019-01-21 08:07:50 · 1440 阅读 · 0 评论 -
HDFS 安全模式的理解
安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本的副本率0.999,如图...转载 2019-01-24 08:01:57 · 1262 阅读 · 0 评论 -
安装snappy数据压缩格式
1.安装snappy数据压缩格式(1)安装snappy:下载snappy安装包,并解压安装。(2)编译haodop 2.x源码:mvn package -Pdist,native -DskipTests -Dtar -Drequire.snappy /apps/soft/hadoop-2.7.5-src/target/hadoop-2.7.5/lib/native(3) 检查 结果b...转载 2019-01-05 16:11:39 · 2812 阅读 · 0 评论 -
腾讯云部署hadoop-hdfs公网远程调用could only be replicated to 0 nodes
文章地址:http://www.haha174.top/article/details/253013 之前在本地虚拟机启动hdfs 然后通过java api 调用hdfs 都是没有问题的。 详情可以参考这两篇博客 伪分布式:http://www.haha174.top/article/details/251072 java-api:http://www.haha174.top/ar...原创 2018-05-04 00:31:50 · 3242 阅读 · 2 评论 -
hadoop 集群搭建
前面说到使用单机搭建hadoop 伪分布式集群,这篇文章讲的是怎么搭建hadoop集群。 这里我是用3台虚拟机 192.168.1.221 spark1 192.168.1.222 spark2 192.168.1.223 spark3 如果不会搭建虚拟机的同学可以参考这篇文章 http://www.haha174.top/article/details/255136一.配置jdk原创 2018-01-21 00:03:37 · 2760 阅读 · 0 评论 -
spark 集群安装
文章地址:http://www.haha174.top/article/details/253943 首先需要安装jdk 不会可以参考这里(http://www.haha174.top/article/details/259178) 安装scala(懒得写了 不会的话 自行百度) 安装 hadoop(http://www.haha174.top/article/details/258原创 2018-01-21 22:42:21 · 3015 阅读 · 0 评论 -
分布式资源调度系统 YARN
文章地址:http://www.haha174.top/article/details/2597071.YARN产生背景1. hadoop 1.x 时: MapReduce:Master/Slave 架构 1个JobTracker带多个TaskTracker JobTracker: 负责 资源调度和作业调度 TaskTracker: 定期向jt 汇报本节点的健康状况、资源...转载 2017-12-17 09:34:02 · 5205 阅读 · 0 评论 -
java api 操作 hdfs
文章地址 :http://www.haha174.top/article/details/2551891.简介之前说到了shell 脚本操作hdfs 现在那么本篇文章讲述java 怎么操作hdfs 使用 sh start-dfs.sh 启动 hdfs jps 查看hdfs 状态 确保 hdfs SecondaryNameNode NameNode DataNode 都已经原创 2017-12-16 18:22:33 · 2886 阅读 · 0 评论 -
shell 命令操作hdfs
简介本编文章主要讲述shell 命令操作hdfs 主要讲述几个简单常用的shell 命令 如 ls get mkdir rm put 前提需要安装hdfs 作者用的是虚拟机搭建的伪分布式环境,如果没有搭建环境的可以参考这里http://www.haha174.top/article/details/251072 首先使用jps 确保 hdfs 都启动 hadoop fs原创 2017-12-13 08:04:44 · 7426 阅读 · 0 评论 -
详解 Secondary NameNode
一. 简介在初学Hadoop时,有个让人疑惑的概念:Secondary NameNode,也叫辅助namenode。从命名看,好像是第二个name mode ,用于备份主namenode,那么,Secondary NameNode的作用是什么?是如何工作的?1. NameNodeHDFS集群有两类节点以管理者和工作者的工作模式运行,namenode就是其中的管理者。它管理着文件系统的命名空间...原创 2019-01-22 22:50:40 · 4020 阅读 · 0 评论