![](https://img-blog.csdnimg.cn/20200414231504637.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
文章平均质量分 76
Hadoop学习记录
默默走开
待我荣耀归来,我娶你可好?
展开
-
【Hadoop】Hadoop文件压缩与存储格式
(图片来源于网络,侵删)文件压缩是什么?文件?压缩?顾名思义,可以认为是对一个文件的大小进行压缩,使其压缩后的大小为原本大小的二分之一、四分之一、甚至十分之一,这样压缩后的文件减小了文件的存储大小,释放了大量空间,也利于文件的传输!在Hadoop中,我们知道MR的输入和输出以及中间结果的Shuffle都和Disk有密切的“交流” !所以压缩对于MR来说可以说是非常重要的!因为我们看一下常见的压缩方式有哪些吧! 如下图????压缩格式codec类算法扩展名多文件splitable原创 2020-09-12 19:03:19 · 1289 阅读 · 0 评论 -
【Hadoop】Hadoop集群动态服役新节点、退役节点
前提:我们现有集群node01、node02、node03,现在动态添加一个node04 ,开搞!!环境准备:1、先克隆一台和集群中一样的机器2、修改机器ip和主机名称3、删除原来的data文件和log日志的残存的文件服役新节点的具体步骤:1、在NameNode的安装目录中的etc/hadoop文件夹下创建dfs.hosts文件,添加DataNode的主机名称(包括新添加的节点)v...原创 2020-04-17 23:46:31 · 5024 阅读 · 2 评论 -
【Hadoop】HDFS机架感知
一、背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为:第一个block副本放...原创 2020-04-05 23:25:12 · 4754 阅读 · 0 评论 -
【Hadoop】HDFS回收站机制
假如HDFS上的数据删除了想找回怎么办?那就开启HDFS回收站功能吧!这样删除文件时,不会真正的删除,将会放入回收站Trash,回收站里的文件可以快速恢复可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块回收站功能启用Hadoop的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启修改c...原创 2020-04-05 23:05:14 · 5196 阅读 · 0 评论 -
【Hadoop】Hadoop的优化
Hadoop优化HDFS小文件的影响大量的小文件会影响到NameNode的寿命,因为这些文件的元数据信息会存在NameNode的内存中,而NameNode的内存是有限的会影响计算引擎的任务数量,每一个小的文件都会生成一个Map任务【1】数据输入小文件处理1.合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储成SequenceFile文件2.采用Conbin...原创 2020-03-17 10:11:19 · 5040 阅读 · 1 评论 -
【Hadoop】Yarn 调度器Scheduler详解
一、调度器的选择在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler。FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。FIFO Scheduler是最简单也是最容易理解的调...转载 2020-03-10 22:41:09 · 4794 阅读 · 0 评论 -
【Hadoop】Yarn入门解析
Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序Yarn三大组件介绍【1】ResourceManager1.ResourceManager负责整个集群的资源管理和分配,是一个全局的资源管理系统。2.NodeManager以心跳的方式向ResourceManager...原创 2020-03-09 23:26:51 · 5633 阅读 · 0 评论 -
【Hadoop】HadoopHA高可用完全分布式搭建
4台节点 节点分布一、统一配置JDK和Hadoop在四台节点上配置好JDK以及Hadoop环境变量二、配置免密钥我们将node01作为管理脚本的启动节点,需要配置node01节点免密钥登录其他三台节点 1)在node01节点执行以下操作: cd ~/.ssh scp id_dsa.pub node02:`pwd`/node01.pub scp id_dsa.pub...原创 2019-10-19 17:18:47 · 9731 阅读 · 5 评论 -
【Hadoop】HDFS入门解析
一、Hadoop三大组件1.HDFS 分布式文件系统2.MapReduce 分布式离线计算框架3.Yarn 资源调度1.HDFS管理者:NameNode1)作用1.管理整个文件系统的元数据/名字空间/目录树2.管理每一个路径/文件所对应的block块信息3.管理DataNode的心跳日志项目2)NameNode元数据持久化的2...原创 2019-11-04 18:07:23 · 11383 阅读 · 5 评论 -
【Hadoop】MapReduce入门解析
MapReduceMapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台1.映射(Mapping) :对集合里的每个目标应用同一个操作。即,如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping(这里体现了移动计算而不是移动数据)2.化简(Reducing):遍历集合中的元素来返回一个综合的结果。即,输出表单里一列...原创 2019-11-11 14:28:56 · 11500 阅读 · 8 评论