hdfs
文章平均质量分 66
格格巫 MMQ!!
==========青春肆意飞扬,热爱经久不息。==============
展开
-
如何对HDFS进行节点内(磁盘间)数据平衡
在CDP7中,因为是Hadoop3,默认就支持磁盘间数据均衡,本文档主要介绍在CDP中如何进行HDFS磁盘扩容并在节点内进行Balancer。特别是这种情况:当DataNode原来是挂载了几个数据盘,当磁盘占用率很高之后,再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡,因此,会造成老数据磁盘占用率很高,新挂载的数据盘几乎很空。在这种情况下,挂载新的数据盘就失去了扩容HDFS数据盘的意义。磁盘平衡执行计划生成的文件内容格式是Json的,并且存储在HDFS之上。...原创 2022-08-15 18:42:48 · 1723 阅读 · 0 评论 -
HDFS的垃圾回收机制
要格外注意的是,在 步骤2 时,有可能在操作过程中提示File Not Exists,这时不要惊慌,文件并没有丢失,其实是进行了 步骤3,文件移动到了另一个目录而已。回收站checkpoint机制:进入回收站的文件首先进入Current目录,然后定期移动到一个时间戳目录,定期的间隔为60分钟。开启垃圾回收站 把删除的文件首先放置在回收站中 等待配置的时间结束 进行真正的数据删除。被删除的文件会进入回收站,默认保留1440分钟后完全删除。本质是把删除文件 首先移动一个指定的文件夹下面。垃圾回收机制演示效果。.原创 2022-08-15 17:55:38 · 1549 阅读 · 0 评论 -
cloudera server与agent失连问题
159启动cloudera-manager失败发现启动过程中event-server失败,后面接着三个monitor就失败了。#该主机已与 Cloudera Manager Server 建立联系。然后从新添加到集群。把170,171,172,221四台agent停掉,停掉170 server;#最后开启servermonitor的通配符,还是上面的错误查看agent scm-status.log。#最后开启servermonitor的通配符,还是上面的错误查看agent scm-status.log。..原创 2022-08-15 16:29:09 · 872 阅读 · 0 评论 -
CDH 集群定期清理指南
可以在CM里启动(hdfs-balancer-示例-操作-重新平衡),也可以命令启动(hadoop balancer [-threshold ])。解决方法一:主要清理cloudera-host-monitor 、cloudera-service-monitor。下面是我写的一个shell脚本,可以查看所有目录和文件的大小,将大的无用文件删除。例:subject_ts、ts_subject、ts等带有ts的目录(慎重啊)例:subject_ts、ts_subject、ts等带有ts的目录。...原创 2022-08-15 15:36:26 · 819 阅读 · 0 评论 -
被误删的HDFS文件如何有效恢复
NameNode在收到删除命令时,会先将这个命令写到edits中,然后会告诉DataNode执行真正的文件删除操作。所以我们在误删文件后,需要做的是立刻停止NameNode和DataNode节点,阻止删除命令的执行。OP_DELETE代表删除操作,可以将这个标记修改为安全的操作(如OP_SET_PERMISSIONS),如果这个命令在最后,可以直接删除,然后保存。文件的恢复存在以下几种情况:(主要和集群的繁忙状态有很大关系。最后再启动NameNode和DataNode节点,查看误删文件的恢复情况。...原创 2022-08-15 15:03:06 · 474 阅读 · 0 评论 -
被误删的HDFS文件如何有效恢复
NameNode在收到删除命令时,会先将这个命令写到edits中,然后会告诉DataNode执行真正的文件删除操作。所以我们在误删文件后,需要做的是立刻停止NameNode和DataNode节点,阻止删除命令的执行。OP_DELETE代表删除操作,可以将这个标记修改为安全的操作(如OP_SET_PERMISSIONS),如果这个命令在最后,可以直接删除,然后保存。文件的恢复存在以下几种情况:(主要和集群的繁忙状态有很大关系。最后再启动NameNode和DataNode节点,查看误删文件的恢复情况。...原创 2022-08-15 15:00:45 · 1409 阅读 · 0 评论 -
如何有效恢复误删的HDFS文件
快照的一些常见用例是数据备份,利用快照可以对重要数据进行恢复,防止用户错误性的操作,管理员可以通过以滚动的方式周期性设置一个只读的快照,这样就可以在文件系统上有若干份只读快照。对做快照之后的数据进行的更改将会按照时间顺序逆序的记录下来,用户访问的还是当前最新的数据,快照里的内容为快照创建的时间点时文件的内容减去当前文件的内容。然后找到执行删除操作发生时间对应的edits日志。新建快照的时候,Datanode中的block不会被复制,快照中只是记录了文件块的列表和大小信息快照不会影响正常的HDFS的操作。..原创 2022-08-15 14:59:54 · 455 阅读 · 0 评论 -
HDFS 读写解析
HDFS 读数据流程客户端通过 FileSystem 向 NameNode 发起请求下载文件,NameNode 通过查询元数据找到文件所在的 DataNode 地址挑选一台 DataNode(就近原则)服务器,发送读取数据请求DataNode 开始传输数据给客户端客户端以 Packet 为单位接收,先在本地缓存,然后写入目标文件HDFS 写数据流程客户端通过 FileSystem 模块向 NameNode 发送上传文件请求,NameNode 检查目标文件是否已存在,父目录是否存在。...原创 2022-08-08 15:48:03 · 220 阅读 · 0 评论 -
hdfs删除和上传文件命令参考
删除hadfs文件export HADOOP_USER_NAME=hdfshadoop fs -rm -r -skipTrash /datafs/5gmr/parameter/neighborhood/*export HADOOP_USER_NAME=hdfshadoop dfs -rm -r /datafs/5gmr/parameter/city_latitude_longitude/*上传文件hadoop dfs -put 目录/* /datafs/5gmr/parameter/nei原创 2021-10-19 16:24:16 · 286 阅读 · 0 评论 -
hdfs清理回收站命令(参考)
hadoop fs -rm -r .Trashhdfs dfs -expungehdfs dfs -expunge该路径下文件命令:hadoop fs -ls /user/spark/applicationHistory占用磁盘大小:hadoop fs -du -h /user/spark/applicationHistoryhdfs dfs -rm -skipTrash /user/spark/applicationHistory/* 清空spark记录清空回收站命令:hdfs dfs -原创 2021-10-09 21:32:46 · 4395 阅读 · 0 评论 -
查看HDFS文件系统数据的三种方法
1、使用插件——Hadoop-Eclipse-Plugin此方法需要借助Eclipse,插件的安装及使用请参考博文使用Eclipse编译运行MapReduce程序_Hadoop2.6.0_Ubuntu/CentOS。借助Eclipse只能进行简单的HDFS操作,如查看,删除,上传,下载。以下是操作界面:插件界面2、HDFS Web界面HDFS Web界面上只能查看文件系统数据。网址:http://localhost:50070界面如下:web界面执行完WordCount程序后可以到本界面原创 2021-06-16 19:17:16 · 7320 阅读 · 0 评论 -
如何在HDFS中进行数据压缩以实现高效存储?
在上一节,我们介绍了在HDFS中组织数据的规则和方法。本节作为《Hadoop从入门到精通》专题的第四章第二节,将主要介绍如何在HDFS中进行数据压缩,有哪些可选的数据压缩方法等内容。数据压缩是一种将数据简化为更紧凑形式的机制,以节省存储空间并提高数据传输效率。4.2 通过数据压缩实现高效存储数据压缩是文件处理的重要方面,在处理Hadoop支持的数据大小时,这一点变得更加重要。大部分企业在使用Hadoop时,目标都是尽可能高效得进行数据处理,选择合适的压缩编解码器将使作业运行更快,并允许在集群中存储更多数原创 2021-06-10 13:14:10 · 1781 阅读 · 3 评论 -
Hdfs磁盘存储策略和预留空间配置
一、Hdfs磁盘存储策略1、 指定本地目录存储策略data目录为Hot策略对应DISK;data1目录为Cold策略对应ARCHIVE;dfs.datanode.data.dir[DISK]/opt/beh/data/namenode/dfs/data,[ARCHIVE]/opt/beh/data/namenode/dfs/data1重启hdfs$ stop-dfs.sh$ start-dfs.sh2、指定hdfs目录的存储策略查看hdfs存储策略$ hdfs storagepol原创 2021-06-10 13:09:07 · 1389 阅读 · 0 评论 -
HDFS基本原理及数据存取实战
本文主要介绍了hdfs的基本原理、hdfs基本操作、hdfs的读取数据流程、namenode工作机制,rpc编程以及常见的两种必会的面试题等,旨在于全面深入的理解HDFS的基本工作流程并可以开发出简易的HDFS的程序。一、HDFS简介Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS体系结构中有两类节点,一类是NameNode,又叫"元数据节点";另一类是DataNode,又叫"数据节点"。这两类节点分别承担Master和原创 2021-06-10 13:06:48 · 464 阅读 · 0 评论 -
HDFS各个进程存储在磁盘上的数据含义和注意事项
(一)Namenode的目录结构HDFS进行初次格式化之后将会在$dfs.namenode.name.dir/current目录下生成一系列文件:复制代码${dfs.namenode.name.dir}/currentVERSIONedits_0000000000000000001-0000000000000000007edits_0000000000000000008-0000000000000000015edits_0000000000000000016-0000000000000000原创 2021-06-10 13:04:38 · 500 阅读 · 0 评论 -
The health test result for DATA_NODE_FREE_SPACE_REMAINING has become bad: Space free on data volume
告警原文:The health test result for DATA_NODE_FREE_SPACE_REMAINING has become bad: Space free on data volumes: 128.8 MiB. Capacity of data volumes: 4.2 TiB. Percentage of capacity free: 0.00%. Critical threshold: 10.00%. This health test is currently suppres原创 2021-04-16 03:09:31 · 2870 阅读 · 1 评论 -
启动hdfs报java.io.IOException: Premature EOF from inputStream错误
缘由:新集群(cdh)搭建好,打算测试一下新集群的hdfs性能,因而使用hdfs自带的测试 hadoop-test-2.6.0-mr1-cdh5.6.1.jar,计划产生10T的数据量进行测试,hadoop jar hadoop-test-2.6.0-mr1-cdh5.6.1.jar TestDFSIO -write -nrFiles 10 -fileSize 10000000 -resFile /tmp/TestDFSIO_results.log;java因为时间问题,在数据量产生到2T多的时候,集群机原创 2021-04-16 02:51:12 · 790 阅读 · 1 评论 -
HDFS权限
HDFS的权限管理是被用户最常问到的问题之一,HDFS实现了一个和POSIX系统相似的文件和目录的权限模型,同时还支持POSIX ACLs规范,因为POSIX ACLs自己就比较复杂,还改变了一些传统POSIX权限体系的语义,所以大部分用户在使用过程当中都会遇到如下一些困惑,例如:umask是干什么用的?ACLs里的mask做用是什么?为何我明明给用户A添加了rwx权限的ACLs,A却仍然写失败?什么权限会继承?什么权限不会继承?为何建立的这个目录继承的权限跟预期的不一致?node权限控制通常分为两部分,原创 2021-04-14 22:32:51 · 757 阅读 · 1 评论 -
HDFS(三)——用 Java 建立一个 HDFS 目录,HDFS 的权限的问题
1、导入 HDFS 所需 jar 包把解压后的 hadoop 文件夹下的 common 目录中的 jar,和里面的 lib 包中全部的 jar,以及 hdfs 目录下的 jar,和里面的 lib 包中全部的 jar 都添加到项目的环境变量中。javahdfs2、编写测试代码import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.P原创 2021-04-02 09:38:27 · 452 阅读 · 0 评论 -
Hadoop 创建用户及HDFS权限,HDFS操作等常用Shell命令
sudo addgroup Hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sudoers#将hadoop组加入到sudoer在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL修改hadoop目录的权限sudo chown -R larry:hadoop /home/larry/hadoop<所有者:组 文件>sudo chmod -R 75原创 2021-04-02 09:27:43 · 300 阅读 · 0 评论 -
配置HDFS目录权限
操作场景默认情况下,某些HDFS的文件目录权限为777或者750,存在安全风险。建议您在安装完成后修改该HDFS目录的权限,增加用户的安全性。操作步骤在HDFS客户端中,使用具有HDFS管理员权限的用户,执行如下命令,将“/user”的目录权限进行修改。此处将权限修改为“1777”,即在权限处增加“1”,表示增加目录的粘性,即只有创建的用户才可以删除此目录。hdfs dfs -chmod 1777 /user为了系统文件的安全,建议用户将非临时目录进行安全加固,例如:/user:777/mr原创 2021-04-02 09:27:03 · 2028 阅读 · 0 评论 -
hadoop 命令操作hdfs 目录权限 管理
由于公司的大数据平台 搭建的比较简陋,还要让 之前根本没有接触过 hadoop平台的开发 算法人员使用,他们的错误操作 经常给你带来 意外的惊喜和 感动的泪水,我心里有十万个 MMP。。。所以刚开始就想干脆像 初中小学那样写个班规似的 使用规范吧,但是规范的约束力是有限的,需要大家相互信任,但是总有人会错误操作的风险,怎么办 怎么办,只能通过强制的方法 解决这个局面。好汉 大部分都是被逼上梁山的,平台的演进大多也是根据眼前出现的问题 不断精益求精的。所以搭建 权限管理 势在必行。先简单 介绍一下 思想原创 2021-04-02 09:23:52 · 2369 阅读 · 0 评论 -
hdfs如何赋予目录权限
用户身份在1.0.4这个版本的Hadoop中,客户端用户身份是通过宿主操作系统给出。对类Unix系统来说,将来会增加其他的方式来确定用户身份(比如Kerberos、LDAP等)。期待用上文中提到的第一种方式来防止一个用户假冒另一个用户是不现实的。这种用户身份识别机制结合权限模型允许一个协作团体以一种有组织的形式共享文件系统中的资源。不管怎样,用户身份机制对HDFS本身来说只是外部特性。HDFS并不提供创建用户身份、创建组或处理用户凭证等功能。HDFS本身是没有用户和用户组的概念的,如果想要将HDFS原创 2021-04-02 09:21:43 · 2681 阅读 · 0 评论