![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop HDFS
科大人
喵~
展开
-
hadoop2.7.2在Linux Ubuntu16.04虚拟机上的集群搭建
科大人使用的VisualBox来搭建Linux虚拟机,先新建一台LinuxUbuntu16.04版的虚拟机,配置虚拟机的过程在这里就不说了,看科大人心情要不要专门写一篇博客来叙述安装教程。搭建基础的hadoop集群,科大人准备使用一台主机(master)和两台从机(slave1、slave2)来实现,主机配置的2G内存2核CPU,两从机配置的1G内存2核CPU,这个可以根据电脑配置做改变,但是主...原创 2019-02-28 20:24:38 · 610 阅读 · 0 评论 -
hadoop 回收站
1)默认回收站    默认值 fs.trash.interval=0,0 表示禁用回收站,可以设置删除文件的存活时间。    默认值 fs.trash.checkpoint.interval=0,检查回收站的间隔时间。&转载 2019-03-02 16:55:12 · 873 阅读 · 0 评论 -
hadoop 快照管理
快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。转载 2019-03-02 14:27:24 · 336 阅读 · 0 评论 -
hadoop 存档
1)理论概述    每个文件均按块存储,每个块的元数据存储在 namenode 的内存中,因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 namenode 中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个 1MB 的文件以大小为 128MB 的块存储,使用的是 1MB 的...转载 2019-03-02 14:20:20 · 132 阅读 · 0 评论 -
hadoop 集群间数据拷贝
1)scp 实现两个远程主机之间的文件复制scp -r hello.txt hadoop@node3:~/hello.txt // 推 pushscp -r hadoop@node3:~/hello.txt hello.txt // 拉 pullscp -r hadoop@node3:~/hello.txt hadoop@node2:~/ //是通过本地主机中转实现两个远程主机的文件复制...转载 2019-03-02 13:55:53 · 1243 阅读 · 0 评论 -
hadoop DataNode 工作机制
DataNode工作机制图1)一个数据块在 datanode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode 启动后向 namenode 注册,通过后,周期性(1 小时)的向 namenode 上报所有的块信息。 3)心跳是每 3 秒一次,心跳返回结果带有 namenode 给该 datanode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 datanode转载 2019-03-02 13:32:15 · 210 阅读 · 0 评论 -
hadoop 集群安全模式操作
集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。转载 2019-03-02 12:46:59 · 417 阅读 · 0 评论 -
hadoop SecondaryNameNode 目录结构
Secondary NameNode 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS元数据的快照。在 /home/hadoop/hadoop_home/dfs/namesecondary/current 这个目录中查看 SecondaryNameNode 目录结构。注:也可能是/home/hadoop/hadoop_home/tmp/dfs/namesecondary/current转载 2019-03-02 10:57:44 · 502 阅读 · 0 评论 -
hadoop namenode VERSION
1)查看 namenode 版本号在/home/hadoop/hadoop_home/dfs/name/current 这个目录下查看 VERSION转载 2019-03-02 10:34:06 · 1564 阅读 · 1 评论 -
hadoop 滚动编辑日志
正常情况 HDFS 文件系统有更新操作时,就会滚动编辑日志。也可以用命令强制滚动编辑日志。1)滚动编辑日志(前提必须启动集群) hadoop@master:~/hadoop_home/dfs/name/current$ hdfs dfsadmin -rollEdits2)镜像文件什么时候产生 Namenode 启动时加载镜像文件和编辑日志转载 2019-03-02 10:21:32 · 857 阅读 · 0 评论 -
hadoop 镜像文件和编辑日志文件
1)概念被格式化之后,在/home/hadoop/hadoop_home/dfs/name/current 目录中产生如下文件:转载 2019-03-02 10:06:25 · 694 阅读 · 0 评论 -
hadoop NameNode和SecondaryNameNode 工作机制
NameNode工作机制1)第一阶段:namenode 启动(1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode 记录操作日志,更新滚动日志。(4)namenode 在内存中对数据进行增删改查2)第二阶段:Secondary Nam...转载 2019-03-01 22:18:54 · 374 阅读 · 0 评论 -
hadoop HDFS 读数据流程
HDFS读数据流程图1)客户端向 namenode 请求下载文件,namenode 通过查询元数据,找到文件块所在的 datanode地址。2)挑选一台 datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode 开始传输数据给客户端(从磁盘里面读取数据放入流,以 packet 为单位来做校验)。4)客户端以 packet 为单位接收,先在本地缓存,然后写入目标文件...转载 2019-03-01 21:57:01 · 178 阅读 · 0 评论 -
hadoop HDFS 写数据流程
HDFS写数据流程图:1)客户端向 namenode 请求上传文件,namenode 检查目标文件是否已存在,父目录是否存在。2)namenode 返回是否可以上传。3)客户端请求第一个 block 上传到哪几个 datanode 服务器上。4)namenode 返回 3 个 datanode 节点,分别为 dn1、dn2、dn3。5)客户端请求 dn1 上传数据,dn1 收到请求会继...转载 2019-03-01 21:49:39 · 177 阅读 · 0 评论 -
hadoop配置集群常见问题
1)防火墙没关闭、或者没有启动 yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip 地址配置错误4)ssh 没有配置好5)root 用户和 hadoop 两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unable to...原创 2019-03-01 21:02:10 · 465 阅读 · 0 评论 -
hadoop集群启动及基础测试
集群成员:master、node1、node21)启动集群(0)如果集群是第一次启动,需要格式化 namenodehadoop@node1:~$ hdfs namenode –formathadoop@node2:~$ hdfs namenode -format(1)启动 HDFS:hadoop@master:~$ start-dfs.shhadoop@master:~$ jps显...原创 2019-03-01 20:21:40 · 824 阅读 · 1 评论 -
hadoop 在hadoop集群上执行java程序
1、将java项目打包成jar文件 具体过程这里不解释,在我的另一篇博客 将java程序打包成jar 里,有win系统通过idea打包jar的教程。2、打开hadoop集群,start-all.sh3、将jar包传到linux平台上,删除jar包里的.SF .RSA *SF文件原创 2019-03-04 14:07:11 · 4362 阅读 · 2 评论