Hadoop基础
文章平均质量分 62
Hadoop基础
家道消乏
这个作者很懒,什么都没留下…
展开
-
MapReduce:Idea开发Client
写的不到位的地方,欢迎评论指出不足之处将服务器端的 hadoop 的四个文件 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 复制到项目下的 resources pom.xml 配置<!--客户端聚合包--><dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoo.原创 2021-07-14 09:51:38 · 62 阅读 · 0 评论 -
Hadoop:Yarn 搭建
写的不到位的地方,欢迎评论指出不足之处Hadoop2.X出现了一个 Yarn (资源管理) MapReduce 没有后台的常服务(临时服务) 与 HDFS 是两个独立的概念 Yarn 模型 container 容器,里面运行我们的 AppMaster、Map/Reduce Task 解耦 mapreduce on yarn 架构 Resource Manager Node Manage NameNode (NN) ..原创 2021-07-13 20:25:51 · 372 阅读 · 1 评论 -
Hadoop:Yarn 初识
模型 Container容器,不是docke 虚的 对象 属性:容量归属 Node Manage、cpu、内存、io量 物理的 JVM 操作系统进程 Node Manage 会有线程监控 container 资源情况 超额:NM 直接kill干掉 cgroup 内核级技术:在启动 JVM 进程,由 kernel 约束死 整合 docker 实现:架构/框架 Resourc...原创 2021-07-11 12:58:19 · 87 阅读 · 0 评论 -
Hadoop:MapReduce 计算框架
HDSF:存储文件 存储模型 切块、散列 分治目的 分布式计算 实现 框架 角色 NameNode、DataNode 特长/特点 读写流程很重要 MapReduce:批量计算 计算模型 两阶段:Map 与 Reduce 是一种阻塞关系 Map 单条记录加工和处理 Reduce 按组、多条记录加工和处理 实现 :框架 计算向数据移动 ...原创 2021-07-09 13:52:28 · 112 阅读 · 0 评论 -
Hadoop:MapReduce 原理图
写的不到位的地方,欢迎评论指出不足之处MapReduce 数据以一条记录为单位,经过map方法映射成KV,相同的key为一组,这一组数据调用一次reduce方法,在方法内迭代计算着一组数据 经验 数据集一般是用迭代计算的方式 block (物理切割):split(切片/逻辑切割) 注意 框架默认的 split 数量 = block 数量 控制并行数:由切片数决定 切片利用 block 上的 location 信息、副本信息,决定 map 的计算程.原创 2021-07-08 12:54:39 · 430 阅读 · 0 评论 -
HDFS:Idea开发Client
写的不到位的地方,欢迎评论指出不足之处前言: 前提是服务器端部署正常开发工具: IntelliJ IDEA、Maven1、配置 pom.xml<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> <scope>...原创 2021-07-05 16:23:06 · 92 阅读 · 0 评论 -
Hadoop:HA模式配置与实现
写的不到位的地方,欢迎评论指出不足之处一、集群角色分配服务器 NameNode NameNode Zookepper FailoverController DataNode Zookepper JournalNode One yes (NN2和其它节点免密) yes yes Two .原创 2021-07-05 13:20:15 · 493 阅读 · 0 评论 -
Hadoop:伪分布式安装与配置
写的不到位的地方,欢迎评论指出不足之处前言技术版本总是不断的更新,但企业为了能够安全、稳定的使用技术,通常不会使用最新,而是版本相对较低 即使使用的版本也存在一定的问题,但该版本存在的时间长,从而在互联网上更能寻找到相关的解决问题Hadoop 安装包 版本:2.10.1(本人虚拟机所用) 下载:https://hadoop.apache.org/release/2.10.1.html 手册:https://hadoop.apache.org/docs/r2.10.1/hadoop-.原创 2021-06-30 16:27:30 · 554 阅读 · 0 评论 -
Hadoop:基础设施安装配置部署
写的不到位的地方,欢迎评论指出不足之处前言服务器系统不同操作命令也不同,即使同为 Centos 系统,版本6与8的命令也有不同,具体按系统版本操作一、环境系统(本人所用虚拟机:同时开启四台) one、two、three、four [root@one ~]# lsb_release -aLSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:grap.原创 2021-06-30 14:34:33 · 115 阅读 · 0 评论 -
HDFS:HA模式
写的不到位的地方,欢迎评论指出不足之处主从集群 ● 优点 ● 结构相对简单、主与从协作 ● 主:单点、数据一致好掌握 ● 缺点 ● 两个独立的问题 ● 问题一:单点故障、集群整体不可用 ● 主只有一个,当主出现故障后,从将不可用,导致整个集群无法工作...原创 2021-06-30 12:53:21 · 829 阅读 · 0 评论 -
HDFS:读流程
写的不到位的地方,欢迎评论指出不足之处1、节省消耗 ● 为了降低整体的带宽消耗和读取延时,HDFS会尽量让读取程序读取离它最近的副本 ● 如果在读取程序的同一个机架上有一个副本,那么就读取该副本 ● 如果一个 HDFS 集群跨越多个数据中心,那么客户端也将首先读本地数据中心的副本 ● 总之,先读取最近的(本地)2、全级操作(获取所有块) ● 语义 ● 下载一个文件...原创 2021-06-29 15:39:06 · 111 阅读 · 0 评论 -
HDFS:写流程
1、客户端通过 HDFS Client 将文件进行上传 ● 与 NameNode 连接创建文件元数据(文件名、创建时间、大小、权限、文件与block块映射关系)2、NameNode 对文件的元数据进行验证 ● 是否有权限 ● 是否文件已存在等3、验证通过后,NameNode 触发副本放置策略4、返还指定数量的 DataNode 并按距离因素,进行排序 ● 注: HDFS Client 上传文件的节点(DataNo...原创 2021-06-29 15:06:22 · 114 阅读 · 0 评论 -
HDFS:Block副本放置策略
图解 说明 蓝色大方框:机柜 红色:机架服务器 蓝色三角:DataNode 机柜内部上方的黄色:路由器 机柜内部底部的黄色:电源(供电、电池防断电) 步骤 第一个副本:DataNode本机 注:如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点 第二个副本:与第一个副本不同的机架的节点上 注:2.X修复BUG,若副本数只有2个,都在相同机架节点上时,若此时机架宕机,第二个副本并没有起到作用 第三个副本:与第二..原创 2021-06-28 15:57:24 · 527 阅读 · 0 评论 -
HDFS:安全模式
写的不到位的地方,欢迎评论指出不足之处HDFS搭建时会格式化,格式化操作会产生一个空的 Fslmage 当 NameNode 启动时,它从硬盘中读取 Editlog 和 Fslmage 将所有 Editlog 作用在内存中的 Fslmage 上 并将这个新版本中的事务Fslmage 从内存中保存到本地磁盘上 然后删除旧的 Editlog,因为这个旧的 Editlog 的事务已经作用在 Fslmage 上 NameNode 启动后会进入一个称为安全模式的特殊状态 处于安全模式的 Nam...原创 2021-06-27 15:43:56 · 97 阅读 · 0 评论 -
HDFS:元数据持久化
1、任何对文件系统元数据产生修改的操作,NameNode 都会使用一种称为 EditLog 的事务日志记录下来2、使用 FsImage 存储内存所有的元数据状态3、使用本地磁盘保存 EditLog 和 FsImage4、EditLog 具有完整性、数据丢失少,但恢复速度慢、并有体积膨胀风险5、FsImage 具有恢复速度快、体积与内存数据相当,但不能实时保存、数据丢失多6、NameNode 使用了 Fslmage + EditLog 整合的方案7、滚动将增量的 EditLog 更新到原创 2021-06-27 15:21:39 · 1086 阅读 · 0 评论 -
HDFS:架构设计
1、HDFS是一个主从( Master / Slaves )架构主从 两个都是活动状态,并且是互相通信、协作、调用 主备 主是活动的,备是停止的,当主发生异常后,备才会切换开始活动 2、由一个 NameNode 和一些 DataNode 组成NameNode 完全基于内存存储文件元数据、目录结构、文件 block 的映射 需要持久化方案保证数据可靠性 提供副本放置策略 注 一个集群由许多台组成,但一个集群只有一个“主” .原创 2021-06-27 14:47:10 · 238 阅读 · 0 评论 -
HDFS:存储模型
写的不到位的地方,欢迎评论指出不足之处1、文件线性按字节切割成块(block),具有 offset、id理解 文件按每100字节,切割成一块,同时可拼成原样,每个块的第一个字节,块对应文件时(单一块对应所有块时),块的下标/偏移 如 每5个字节,切割成一块 注 如图只表明文件内是数字,若是其它会将内容切割坏,之后通过计算还原 一个文件 0.1.2.3.4 5.6.7.8.9 10.11.12.13.14.原创 2021-06-27 10:20:05 · 283 阅读 · 0 评论 -
HDFS:思想
单机处理 例 假设 有一个 1T的文件 I/O 磁盘处理速度是 500MB/s (机器硬盘:100+MB/s、固态硬盘:500MB/s、高速接口:1G - 3G/s ) 分析 1T 约 1000GB、1GB = 1000MB、1000GB = 500MB * 2000、即 2000秒 2000秒 / 60秒 约 30分钟 即:循环一次需要30分钟,若一直找不到匹配数据,就要一直循环下去(30分钟 * N次) ...原创 2021-06-25 15:28:08 · 101 阅读 · 0 评论