hdfs
文章平均质量分 80
我:yueda
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
centos环境Hadoop3编译安装
基础环境:Centos 7.7编译环境软件安装目录mkdir -p /export/serverHadoop编译安装安装编译相关的依赖1、yum install gcc gcc-c++ -y#下面这个命令不需要执行 手动安装cmake2、yum install make cmake #(这里cmake版本推荐为3.6版本以上,版本低源码无法编译!可手动安装)3、yum install autoconf automake libtool curl -y4、yum instal原创 2021-12-13 21:06:44 · 2132 阅读 · 0 评论 -
HDFS 透明加密使用、Keystore和Hadoop KMS、加密区域、透明加密关键概念和架构、KMS配置
**HDFS**透明加密(Transparent Encryption)支持端到端的透明加密,启用以后,对于一些需要加密的HDFS目录里的文件可以实现透明的加密和解密,而不需要修改用户的业务代码。端到端是指加密和解密只能通过客户端。对于加密区域里的文件,HDFS保存的即是加密后的文件,文件加密的秘钥也是加密的。让非法用户即使从操作系统层面拷走文件,也是密文,没法查看。原创 2021-12-13 08:15:00 · 5524 阅读 · 1 评论 -
HDFS权限管理、用户身份认证和数据访问授权、UGO权限管理、umask权限掩码、UGO权限相关命令、Web页面修改UGO权限
作为分布式文件系统,HDFS也集成了一套兼容POSIX的权限管理系统。客户端在进行每次文件操时,系统会从**用户身份认证**和**数据访问授权**两个环节进行验证: 客户端的操作请求会首先通过本地的用户身份验证机制来获得“凭证”(类似于身份证书),然后系统根据此“凭证”分辨出合法的用户名,再据此查看该用户所访问的数据是否已经授权。一旦这个流程中的某个环节出现异常,客户端的操作请求便会失败。原创 2021-12-13 06:45:00 · 3001 阅读 · 0 评论 -
HDFS回收站、Trash机制、Trash Checkpoint、快照功能使用、通过Snapshot快照恢复数据、备份数据、HDFS快照的实现
回收站的功能给了我们一剂“后悔药”。回收站保存了删除的文件、文件夹、图片、快捷方式等。这些项目将一直保留在回收站中,直到您清空回收站。我们许多误删除的文件就是从它里面找到的。HDFS本身也是一个文件系统,那么就会涉及到文件数据的删除操作。**默认情况下,HDFS中是没有回收站垃圾桶**概念的,删除操作的数据将会被直接删除,没有后悔药。**HDFS snapshot**是HDFS整个文件系统,或者某个目录在某个时刻的镜像。该镜像并不会随着源目录的改变而进行动态的更新。可以将快照理解为拍照片时的那一瞬间的投影。原创 2021-12-11 10:00:00 · 2055 阅读 · 0 评论 -
HDFS角色职责超详细概述Namenode、Datanode、元数据管理+fsimage 内存镜像文件+ Edits log编辑日志、元数据加载顺序
NameNode是HDFS的核心,集群的主角色,被称为Master。 NameNode仅存储管理HDFS的元数据:文件系统namespace操作维护目录树,文件和块的位置信息。NameNode不存储实际数据或数据集。数据本身实际存储在DataNodes中。 NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNode知道如何从块中构建文件。NameNode并不持久化存储每个文件中各个块所在的DataNode的位置信息,这些信息会在系统启动时从DataNode汇报中重建。原创 2021-12-11 09:00:00 · 6622 阅读 · 0 评论 -
HDFS架构原理、架构剖析、主从架构解析、NameNode、SecondaryNameNode、Datanode之间的联系区别、hdfs分块机制、副本机制、元数据管理
**HDFS**是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。HDFS解决的问题就是大数据如何存储,它是横跨在多台计算机上的文件存储系统并且具有高度的容错能力。原创 2021-12-10 21:45:12 · 6751 阅读 · 0 评论 -
HDFS High Availability(HA)高可用、单点故障、主备集群、脑裂问题、数据同步问题、HDFS HA解决方案—QJM
高可用性或者高可靠度的系统不会希望有单点故障造成整体故障的情形。一般可以透过冗余的方式增加多个相同机能的部件,只要这些部件没有同时失效,系统(或至少部分系统)仍可运作,这会让可靠度提高。原创 2021-12-09 21:11:26 · 3309 阅读 · 0 评论 -
磁盘均衡器:HDFS Disk Balancer简介、Disk Balancer功能和作用、HDFS Disk Balancer相关命令、查询、取消、执行、汇报
长期运行的群集中采用循环策略时,DataNode有时会不均匀地填充其存储目录(磁盘/卷),从而导致某些磁盘已满而其他磁盘却很少使用的情况,如果我们使用基于可用空间的选择策略,则每个新写入将进入新添加的空磁盘,从而使该期间的其他磁盘处于空闲状态。这将在新磁盘上创建瓶颈。HDFS disk balancer是Hadoop 3中引入的命令行工具,用于平衡DataNode中的数据在磁盘之间分布不均匀问题。原创 2021-12-09 07:45:00 · 2550 阅读 · 0 评论 -
HDFS Block负载平衡器:Balancer
HDFS数据可能并不总是在DataNode之间均匀分布。一个常见的原因是向现有群集中添加了新的DataNode。HDFS提供了一个Balancer程序,分析block放置信息并且在整个DataNode节点之间平衡数据,直到被视为平衡为止。原创 2021-12-09 05:45:00 · 2075 阅读 · 0 评论
分享