hadoop
文章平均质量分 70
松哥看世界
每日卷,日日卷,大数据分享
展开
-
MAC M1大数据0-1成神篇-31 补充 xsync集群分发脚本
xsync集群分发脚本原创 2022-12-16 14:28:44 · 283 阅读 · 1 评论 -
MAC M1大数据0-1成神篇-27 mapreduce原理篇
mapreduce原理原创 2022-06-12 22:56:03 · 253 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-26 hadoop3.x新特性
hadoop3.x新特性原创 2022-06-04 22:19:22 · 202 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-24 hadoop为啥搭建高可用?
hadoop为啥搭建高可用?原创 2022-06-04 20:25:12 · 295 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-23 hdfs读数据流程
写在前面:略进入主题: 首先客户端发送请求到DFS,申请读取某一个文件 /tomcat.tar.gz DFS去NN查找这个文件的信息(权限,文件是否存在) 如果文件不存在,抛出指定的错误 如果文件存在,返回成功状态 DFS创建FSDataInputStream对象,客户端通过这个对象读取数据 客户端获取文件第一个Block信息,返回DN1 DN2 DN8 客户端直接就近原则选择DN1对应的数据即可 依次类推读取其他块的信息,直到最后一个块,将Block合并成一个文件原创 2022-05-30 23:30:23 · 137 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-22 hdfs写数据流程
写在前面:1.第一部分宏观讲一下流程2.第二部分微观讲一下流程进入主题:宏观流程 1.客户端向HDFS发送写数据请求 hdfs dfs -put tomcat.tar.gz /lzj/ 2. filesystem通过rpc调用namenode的create方法 nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在 有:NN会针对这个文件创建一个空的Entry对象,并返回成功状态给DFS 没有:直接抛出对应的异常,给予客户端错误提原创 2022-05-30 23:27:30 · 228 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-21 hdfs机架感知策略
进入主题:节点距离 distance(/D1/R1/H1,/D1/R1/H1)=0相同的datanode distance(/D1/R1/H1,/D1/R1/H3)=2同一rack下的不同datanode distance(/D1/R1/H1,/D1/R2/H4)=4同一IDC下的不同datanode distance(/D1/R1/H1,/D2/R3/H7)=6不同IDC下的datanode 机架感知 机架感知(rack awareness)是为了保证副本在集群的安全性原创 2022-05-30 23:15:14 · 231 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-20 hdfs安全模式
写在前面:补充进入主题:集群启动时的一个状态 安全模式是HDFS的一种工作状态,处于安全模式的状态下,只向客户端提供文件的只读视图,不接受对命名空间的修改;同时NameNode节点也不会进行数据块的复制或者删除 NameNode启动时 首先将镜像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。 一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。 NameNode开始监听RPC和Http请求。 此时Name原创 2022-05-30 23:10:53 · 194 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-19 初识hadoop
写在前面:认识一下数据类型和其中的节点。进入主题:一.文件的数据类型文件有一个stat命令 元数据信息-->描述文件的属性 文件有一个vim命令 查看文件的数据信息 分类 元数据 文件数据 真实存在于文件中的数据 二. NameNode(NN) 2.1 功能接受客户端的读写服务 NameNode存放文件与Block的映射关系 DataNode存放Block与DataNode的映射关系 保存...原创 2022-05-27 18:08:46 · 216 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-17 hadoop(分布式文件系统架构)
写在前面:在部署hadoop之前,先学习下分布式架构。 FS File System 文件系统是基于硬盘之上的一个文件管理的工具 我们用户操作文件系统可以和硬盘进行解耦 DFS Distributed File System: 分布式文件系统 将我们的数据存放在多台电脑上存储 分布式文件系统有很多 HDFS是mapreduce计算的基础 进入主题:文件切分思想文件存放在一个磁盘上效率肯定是低的 读取效率低 如果文件特别大会超出单机的存储范围 字节数组原创 2022-05-21 22:35:00 · 389 阅读 · 0 评论 -
MAC M1大数据0-1成神篇-16 hadoop(hdfs算法篇)
写在前面:因为hadoop和mr涉及到了一些算法,那么我们先讲一些算法吧进入主题:1.算法复杂度算法复杂度分为时间复杂度和空间复杂度。其作用: 时间复杂度是指执行这个算法所需要的计算工作量; 而空间复杂度是指执行这个算法所需要的内存空间; 时间和空间都是计算机资源的重要体现,而算法的复杂性就是体现在运行该算法时的计算机所需的资源1.1 空间复杂度一个程序的空间复杂度是指运行完一个程序所需内存的大小。 利用程序的空间复杂度,可以对程序的运行所需要的内存多少有个预先估计。原创 2022-05-19 14:23:51 · 480 阅读 · 0 评论