hdfs
lljazxx
这个作者很懒,什么都没留下…
展开
-
DataNode工作机制
DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删...原创 2019-11-06 13:35:55 · 181 阅读 · 0 评论 -
NameNode和SecondaryNameNode工作机制
NameNode和SecondaryNameNode工作机制第一阶段:NameNode启动(1)第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)NameNode记录操作日志,更新滚动日志。(4)NameNode在内存中对数据进行增删改查。第二阶段:Seconda...原创 2019-11-06 13:34:12 · 326 阅读 · 0 评论 -
HDFS的读写数据流
HDFS的数据流HDFS写数据流程1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)NameNode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端通过...原创 2019-11-06 13:31:52 · 295 阅读 · 0 评论 -
HDFS是啥?HDFS原理 HDFS详解
HDFS概念HDFS(Hadoop Distributed File System): 它是一个分布式文件系统,用于存储文件,通过目录树来定位文件;HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。HDFS优缺点优点1)高容错性(1)数据自动保存多个副本。它通过增加副本的形式,提高容错性;(2)某一个副本丢失以后,它可以自动恢...原创 2019-11-06 11:28:39 · 2845 阅读 · 0 评论 -
从HDFS中向hive数据仓库分区中上传数据
从HDFS中向hive数据仓库分区中上传数据从HDFS中向hive数据仓库中上传数据(分区,按年月日)文件格式: 年-月-日最后有配套的分区表的创建shell代码:#!/bin/bash#创建全局对象,供后面使用action="";#获取该路径下所有的文件 然后进行遍历 得到文件的路径for file in /root/AccountRegister/* do #获取文件...原创 2019-10-31 22:36:02 · 744 阅读 · 1 评论 -
hadoop hdfs 问题集锦 面试问题集锦
hadoop hdfs问题集锦一:hadoop为什么不适合处理大量的小文件,怎么解决?原因:1:文件的元数据(包括文件被分成了哪些blocks,每个block存储在哪些服务器的哪个block块上),都是存储在namenode上的内存,会对namenode的内存造成压力;2: 文件过多会造成文件的定位时间(又称寻址时间)增大;3:监管时间问题:dataNode会向NameNode发送两种...转载 2019-10-26 16:05:00 · 127 阅读 · 0 评论