2018年06月_程序员学习圈

原创 HDFS 2.X新特性

1.集群间数据拷贝1）scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull scp ...

2018-06-30 22:43:30 410

原创 Hadoop 机架感知

1.背景分布式的集群通常包含非常多的机器，由于受到机架槽位和交换机网口的限制，通常大型的分布式集群都会跨好几个机架，由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度，并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到Hadoop集群，由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储，每...

2018-06-29 18:52:09 327

原创 Hadoop 集群安全模式

1.概述 NameNode启动时，首先将映像文件（fsimage）载入内存，并执行编辑日志（edits）中的各项操作。一旦在内存中成功建立文件系统元数据的映像，则创建一个新的fsimage文件和一个空的编辑日志。此时，NameNode开始监听DataNode请求。但是此刻，NameNode运行在安全模式，即NameNode的文件系统对于客户端来说是只读的。系统中的数据块的位置并不是由...

2018-06-29 18:26:47 864

DataNode工作机制1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个...

2018-06-29 15:58:31 2906

原创 HDFS 之 NameNode 和 SecondaryNameNode 关系解析

1.NN和2NN工作机制（1）第一阶段：NameNode启动（1）第一次启动的NameNode格式化后，创建的FsImage和编辑文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。（2）客户端对元数据进行增删改的请求。（3）的NameNode记录操作日志，更新滚动日志。（4）的NameNode在内存中对数据进行增删改查。（2）第二阶段：Secondary NameNode工作（1）Se...

2018-06-28 10:50:07 1068 1

原创 HDFS 读写文件流程详解

第一，对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网，物联网，社交网络，数字家庭，电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。云计算为这些海量，多样化的大数据提供存储和运算平台。通过对不同来源数据的管理，处理，分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种能量，需要严谨的数据治理，富有洞见的数据分析和激...

2018-06-28 08:31:39 891

程序员学习圈