hdfs
文章平均质量分 67
bigdatahyy
这个作者很懒,什么都没留下…
展开
-
Hbase读写流程:整体读取流程
Hbase读写流程:整体读取流程 目标 掌握Hbase数据读取整体流程 分析 #根据rowkey来判断读取哪个region get ns:tbname , rowkey #读取所有Region scan ns:tbname step1:获取元数据 step2:找到对应的Region step3:读取数据 实现 step1:获取元数据 客户端请求Zookeeper,获取meta表所在的regionserver的地址 读取meta表的数据 注意:客户端会缓存meta表的数据,只有第一原创 2021-03-25 16:08:48 · 129 阅读 · 0 评论 -
Hbase写入数据的流程
Hbase写入数据的流程知识点04:Hbase读写流程:meta表 目标 掌握Hbase写入数据的整体流程 分析 目标 掌握Hbase数据写入的流程 当执行一条Put操作,数据是如何写入Hbase的? put 表名 rowkey 列族:列 值 分析 step1:根据表名获取这张表对应的所有Region的信息 step2:根据Rowkey判断具体写入哪个Region step3:将put操作提交给这个Region所在的RegionServer step4原创 2021-03-25 16:06:41 · 490 阅读 · 0 评论 -
hdfs的特殊使用命令
目标:掌握HDFS对目录如何进行限制。 HDFS文件限额配置 hdfs文件的限额配置允许我们以文件大小或者文件个数来限制某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量 数量限额 hdfs dfs -mkdir -p /user/root/lisi #创建hdfs文件夹 hdfs dfsadmin -setQuota 2 lisi # 给该文件夹下面设置最多上传两个文件,上传文件,发现只能上传一个文件 hdfs dfsadmin原创 2020-10-12 20:59:52 · 104 阅读 · 1 评论 -
HDFS特性与缺点的概述
HDFS特性 目标:掌握HDFS具备的特性 1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。 2、高容错性:数据保存多个副本,副本丢失后自动恢复。可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,namenode也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。 3、商用硬件:Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件(廉价商业硬件)的集群上的。 4、大文件存储:HDFS采用数据块的方式存储数据,将数据物理切分原创 2020-10-12 20:54:27 · 160 阅读 · 1 评论 -
HDFS的shell常规命令操作
目标:掌握HDFS操作数据的命令 1)基本语法 bin/hdfs dfs 具体命令 2)参数大全 [root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfs Usage: Hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum &原创 2020-10-12 20:50:44 · 155 阅读 · 0 评论 -
Hadoop----hdfs数据校验
1、数据第一次写入成功后,会进行数据校验,获得校验和。 2、数据读取前,对数据进行校验,获得校验和,计算得到的校验和与第一次上传后的校验和进行对比。 3、两个校验和相同表示数据相同,可以提读取数据 4、两个校验和不相同表示数据不相同,节点去其他节点读取 数据节点周期进行校验和计算,防止数据丢失。 ...原创 2020-10-12 20:46:34 · 406 阅读 · 0 评论 -
Hadoop----HDFS读取数据的流程
1、客户端通过调用FileSystem对象的open()来读取希望打开的文件。 2、 Client向NameNode发起RPC请求,来确定请求文件block所在的位置; 3、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode 都会返回含有该 block 副本的 DataNode 地址; 这些返回的 DN 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时.原创 2020-10-12 20:45:27 · 173 阅读 · 0 评论 -
Hadoop----HDFS写入数据的流程
1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传; 2、 client请求第一个block该传输到哪些DataNode服务器上; 3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C; 4、 client请求3台DataNode中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将整个.原创 2020-10-12 20:43:55 · 114 阅读 · 0 评论