hadoop
文章平均质量分 70
hadoop学习
Hygge_wx
这个作者很懒,什么都没留下…
展开
-
Hadoop学习四 2.x介绍
1、Hadoop 1.x带来问题 1、单点故障 每个群集只有一个NameNode,NameNode存在单点故障(SPOF)。 如果该计算机或进程不可用,则整个群集在整个NameNode重新启动或在另一台计算机上启 动之前将不可用 如果发生意外事件(例如机器崩溃),则在操作员重新启动NameNode之前,群集将不可 用。 计划内的维护事件,例如NameNode计算机上的软件或硬件升级,将导致群集停机时间的延 长 2、水平扩展 将来服务器启动的时候,启动速度慢 3、namenode随着业务的增多,原创 2021-12-03 21:29:04 · 610 阅读 · 0 评论 -
Hadoop学习三 HDFS读数据
1、与NameNode通信查询元数据,找到文件块所在的DataNode服务器 2、挑选一台DataNode(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)服务器,请求建立socket流 3、DataNode开始发送数据(从磁盘里面读取数据放入流,以packet(一个packet为64kb)为单位来做校验) 4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件 ...原创 2021-12-03 15:54:23 · 882 阅读 · 0 评论 -
Hadoop学习二 HDFS写数据
1、宏观流程 跟NameNode通信请求上传文件,NameNode检查目标文件是否已经存在,父目录是否已经存在 NameNode返回是否可以上传 Client先对文件进行切分,请求第一个block该传输到哪些DataNode服务器上 NameNode返回3个DataNode服务器DataNode 1,DataNode 2,DataNode 3 Client请求3台中的一台DataNode 1(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)上传数据(本质上是一个RPC调用.原创 2021-12-03 15:53:23 · 187 阅读 · 0 评论 -
Hadoop学习一 HDFS三兄弟(NN,DN,2NN)
1、NN负责部分 NN负责对HDFS上的元数据进行管理,在NN中保存有最重要的三部分信息: 1、文件由哪些块组成(filename->blocksequence (namespace))。 2、每个块存在哪个位置)(block>machinelist(“nodes”))。 3、除次之外还有文件名,上传者,上传时间等非关键信息。元数据在磁盘中存储在fsimage之中。 2、2NN负责部分 2NN负责将NN在运行期间产生的edits文件和fsimage文件合并,合并之后产生新的fsi.原创 2021-12-03 10:18:17 · 587 阅读 · 0 评论