HDFS
文章平均质量分 84
HDFS进阶
大数据开发工程师-宋权
攻城狮,嗷!!!!
展开
-
HDFS基本命令(亲测好用)
1.hdfs命令行 (1)查看帮助 hdfs dfs -help (2)查看当前目录信息 hdfs dfs -ls / (3)上传文件 hdfs dfs -put /本地路径 /hdfs路径 (4)剪切文件 hdfs dfs -moveFromLocal a.txt /aa.txt (5)下载文件到本地 hdfs d...原创 2021-12-21 11:25:43 · 324 阅读 · 0 评论 -
Hadoop生产调优手册(3)
HDFS—集群迁移 Apache 和 Apache 集群间数据拷贝1)scp 实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull scp -r root@hadoop103:/user/atguigu/hello.txt root@ha原创 2021-10-27 14:48:05 · 197 阅读 · 0 评论 -
Hadoop生产调优手册(2)
HDFS—存储优化纠删码 纠删码原理 HDFS 默认情况下,一个文件有 3 个副本,这样提高了数据的可靠性,但也带来了 2 倍 的冗余开销。Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约 50%左右的存储空间。1)纠删码操作相关的命令2)查看当前支持的纠删码策略 3)纠删码策略解释: RS-3-2-1024k:使用 RS 编码,每 3 个数据单元,生成 2 个校验单元,共 5 个单元,也 就是说:这 5 个单元中,只要有任意的 3 个...原创 2021-10-27 14:14:53 · 244 阅读 · 0 评论 -
Hadoop生产调优手册
HDFS—核心参数 1.1 NameNode 内存生产配置 1)NameNode 内存计算 每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1 亿 G MB KB Byte 2)Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m,如果服务器内存 4G,NameNode 内存可以配置 3g。在 hadoop-e原创 2021-10-27 11:48:15 · 719 阅读 · 1 评论 -
HDFS核心-MapReduce核心思想
(1)分布式的运算程序往往需要分成至少 2 个阶段。 (2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。 (3)第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段 的所有 MapTask 并发实例的输出。 (4)MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段,如果用户的业 务逻辑非常复杂,那就只能多个 MapReduce 程序,串行运行。 总结:分析 WordCount 数据流走向深入理...原创 2021-10-17 17:55:52 · 158 阅读 · 0 评论 -
HDFS核心-HDFS进阶
1.数据库分块思考:为什么块的大小不能设置太小,也不能设置太大? (1)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置; (2)如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开 始位置所需的时间。导致程序在处理这块数据时,会非常慢。 总结:HDFS块的大小设置主要取决于磁盘传输速率2.HDFS的读写流程(切记不要和mapreduce流程搞混,hdfs是建立pipline进行进行上传,mapreduce是切片)(写流程).原创 2021-10-15 11:32:22 · 158 阅读 · 0 评论 -
HDSF核心-HDFS高级
HDFS的回收站 我们windows系统里面有一个回收站,当想恢复删除的文件的话就可以到这里面进行恢复,HDFS也有回 收站。 HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户在Shell命令行删除的 文件/目录,会进入到对应的回收站目录中,在回收站中的数据都有一个生存周期,也就是当回收站中的 文件/目录在一段时间之内没有被用户恢复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用 户就永远也找不回这个文件/目录了。 默认情况下hdfs的回收原创 2021-10-14 11:18:22 · 232 阅读 · 0 评论 -
HDFS 初始namenode
HDFS体系结构 前面我们掌握了HDFS的基本使用,下面我们来详细分析一下HDFS深层次的内容 HDFS 支 持 主 从 结 构 , 主 节 点 称 为 NameNode , 是 因 为 主 节 点 上 运 行 的 有 NameNode 进 程 , NameNode支持多个,目前我们的集群中只配置了一个 从节点称为 DataNode ,是因为从节点上面运行的有DataNode进程,DataNode支持多个,目前我们的 集群中有两个 HDFS中还包含一个 SecondaryNameNo原创 2021-10-13 11:58:48 · 1347 阅读 · 0 评论 -
HDFS核心进阶-namenode进阶
SecondaryNameNode介绍 刚才在分析edits日志文件的时候我们已经针对SecondaryNameNode做了介绍,在这里再做一个总结, 以示重视。 SecondaryNameNode主要负责定期的把edits文件中的内容合并到fsimage中 这个合并操作称为checkpoint,在合并的时候会对edits中的内容进行转换,生成新的内容保存到 fsimage文件中。 注 意 : 在 NameNode 的 HA 架 构 中 没 有 SecondaryNameNode 进原创 2021-10-14 09:47:29 · 184 阅读 · 0 评论