![](https://img-blog.csdnimg.cn/20200902132243200.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop(HDFS、MapReduce)
文章平均质量分 80
Hadoop
plenilune-望月
这个作者很懒,什么都没留下…
展开
-
Hadoop-HDFS(十三) Hadoop 3.x 新特性( 了解)
13 Hadoop 3.x 新特性( 了解)1、将默认的最低 jdk 从 7 升级到 82、纠删码可以将 3 倍副本占据的空间压缩到 1.5 倍,并保持 3 倍副本的容错。由于在读取数据的时候需要进行额外的计算,用于存储使用不频繁的数据3、通过扩展 YARN 的资源类型,支持 CPU 和内存之外的其他资源,如 GPU、FPGA、软件许可证、本地存储等。4、重写了 hadoop 中的 shell 脚本,修复了很多长期存在的 bug 并添加了新特性。有一些改进兼容老版本,有一些不兼容。5、.原创 2021-01-19 10:04:22 · 403 阅读 · 0 评论 -
Hadoop-HDFS(十二) java 客户端操作 HDFS
12 java 客户端操作 HDFS12.1 windows 上部署 hadoop 包1. 部署包 win 版本,解压 hadoop-2.6.5-win10x64-1809.tar.gz 到 D:\devsoft目录下。2. 将 widows 版 本 hadoop-2.6.5/bin/hadoop.dll 、 winutils.exe 放 到c:/Windows/System32 下3. lib 整合$HADOOP_PREFIX/share/hadoop/{common,hdf...原创 2021-01-18 19:41:34 · 162 阅读 · 0 评论 -
Hadoop-HDFS(十一) Hadoop NameNode HA 高可用
11 Hadoop NameNode HA11.1 概述HDFS 2.x解决 HDFS 1.0 中单点故障和内存受限问题,联邦 HAHDFS2.x 中 Federation 和 HA 分离,HA 只能有两个 NameNode解决单点故障HDFS HA:通过主备 NameNode 解决如果主 NameNode 发生故障,则切换到备 NameNode 上。解决内存受限问题HDFS Federation(联邦);水平扩展,支持多个 NameNode;(1)所有 NameN.原创 2021-01-18 19:07:07 · 438 阅读 · 0 评论 -
Hadoop-HDFS(十) Hadoop Federation(了解)联邦
10 Hadoop Federation (了解)联邦10.1 NameNode 需要多少内存问题:NameNode 需要多大的内存?业界看法:1GB 内存放 1,000,000block 元数据。200 个节点的集群中每个节点有 24TB 存储空间,block 大小为 128MB,block 复制因子为 3,能存储大概 12500,000 个 block(或更多):200×24,000,000MB/(128MB×3)。此时,NameNode 内存大概需要 12.5GB。5000 个节.原创 2021-01-18 17:37:46 · 159 阅读 · 0 评论 -
Hadoop-HDFS(七) hadoop 的安全模式
7 hadoop 的安全模式7.1 工作流程( 理解)1. 启动 NameNode,NameNode 加载 fsimage 到内存,对内存数据执行 edits log 日志中的事务操作。2. 文件系统元数据内存镜像加载完毕,进行 fsimage 和 edits log 日志的合并,并创建新的 fsimage 文件和一个空的 edits log 日志文件。3. NameNode 等待 DataNode 上传 block 列表信息,直到副本数满足最小副本条件。4. 当满足了最小副本条件,再.原创 2021-01-18 16:38:53 · 267 阅读 · 0 评论 -
Hadoop-HDFS(五、六) 数据块副本放置策略、HDFS 的权限 (了解)
5 数据块副本放置策略Block 的副本放置策略第一个副本:放置在上传文件的 DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。第二个副本:放置在于第一个副本不同的机架的节点上。第三个副本:与第二个副本相同机架的节点。更多副本:随机节点源代码:6 HDFS 的权限 (了解)1、每个文件和目录都和一个拥有者和组相关联。2、文件或者目录对与拥有者、同组用户和其他用户拥有独立的权限。3、对于一个文件,r 表示读取的权限,w 表示写或者追加的权限。..原创 2021-01-18 16:27:55 · 422 阅读 · 0 评论 -
Hadoop-HDFS(四) HDFS 角色分析
4 HDFS 角色分析4.1NameNodeNameNode 管理文件系统的命名空间1. 文件和目录的元数据:(运行时,元数据放内存) 文件的 block 副本个数 修改和访问的时间 访问权限 block 大小以及组成文件的 block 信息列表2. 以两种方式在 NameNode 本地进行持久化: 命名空间镜像文件(fsimage)和编辑日志(edits log)。3. fsimage 文件不记录每个 block 所在的 DataN...原创 2021-01-18 16:20:14 · 488 阅读 · 0 评论 -
Hadoop-HDFS(三) HDFS 架构
3 HDFS 架构3.1 前提和设计目标 1. 硬件错误 a) 硬件错误是常态而不是异常。 b) HDFS 可能由成百上千的服务器所构成,单机故障概率的存在意味着总有一部分服务器不工作的。 c) 错误检测和快速自动恢复是 HDFS 最核心架构目标。 2. 流式数据访问 a) 运行在 HDFS 上的应用需要流式访问它们的数据集。 b) HDFS 的设计重点是批处理,而不是交互处理。是高吞吐量而不是低延迟...原创 2021-01-18 15:44:23 · 175 阅读 · 1 评论 -
Hadoop-HDFS(二)hadoop 起源
2 hadoop 起源2.1 发展历史 Doug Cutting1. 2002 年10月,Doug Cutting 和Mike Cafarella创建了开源网页爬虫项目Nutch。2. 2003 年 10 月,Google 发表 Google File System 论文。3. 2004 年 7 月,Doug Cutting 和 Mike Cafarella 在 Nutch 中实现了类似 ...原创 2021-01-18 15:22:44 · 717 阅读 · 0 评论 -
Hadoop-HDFS(一) 1T 文件操作的思考( 理解)
1T 文件操作的思考( 理解)1. 分治思想引入案例2. 单机处理大数据的问题3. 集群分布式处理大数据4. 集群分布式处理大数据优劣的辩证1.1 分治 思想引入案例1. 十万个元素(单词)需要存储,如何存储?2. 如果想查找某一个元素,最简单的遍历方式的复杂度是多少?3. 如果我们期望复杂度是 O(4)呢?• 分而治之的思想非常重要,常见于以下技术:1. Redis 集群2. Hadoop3. Hbase4. ElasticSearch1..原创 2021-01-18 15:07:46 · 640 阅读 · 0 评论 -
Hadoop-HDFS(九)HDFS 完全分布式搭建
9.1 规划node1 node2 node3 node4 NameNode SecondaryNameNode DataNode-1 DataNode-2 DataNode-3 1) 基础设置 a) 网络 b) Ssh: 哪个节点将公钥分发,成为启动 start-dfs.sh 脚本的主机和这个主机上的进程没有关系 c) Jdk2) 应用搭建 a) 部署&配置 b)...原创 2021-01-14 20:45:20 · 103 阅读 · 0 评论