初始Hadoop 1

最新推荐文章于 2023-10-25 00:31:23 发布

吾会飞飞飞

最新推荐文章于 2023-10-25 00:31:23 发布

阅读量430

点赞数

分类专栏：大数据文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010094934/article/details/51623469

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

大数据下的困惑

随着数据规模的不断增长，单一的系统存储存在着存储容量、读写速率、计算效率等瓶颈。

Google针对这个问题提出了 MapReduce BigTable GFS 三大理论，具有三大优势。

优势一：成本降低、能用PC机、就不使用大型机与高端存储。

优势二：软件保持容错性，硬件的故障视为一种常态，通过软件保持其可靠性。

优势三：简化分布式并行计算，无需控制节点同步与数据交换。

Hadoop，是对Google大数据思想的开源实现。

Hadoop

使用简单的编程模型实现分布式大数据计算的框架，它被设计成从单一的服务器扩展到上千台服务器，每一个服务器都提供存储和计算，认为每一台服务器都是易发生故障的，不依赖于硬件提供高可用性，使用应用层来进行检测和处理故障，进而提供高度可用的服务。

Hadoop模型主要包括 HDFS、MapReduce、Common（util组件）、YARN 。

HDFS:分布式文件系统，存储海量数据

MapReduce:并行处理框架，实现任务分解和调度。

Hadoop优势

高扩展，低成本，成熟的生态圈（Hive、Hbase、zookeeper）

搭建环境

linux环境（可以租用云主机如阿里云）

jdk

hadoop包

HDFS基本概念

Block HDFS的文件被分成块来存储，默认块大小为64MB，是文件存储处理的逻辑单元

DataNode HDFS的工作节点，存放数据块。

NameNode 管理节点，存放文件元数据（文件与数据块的映射表、数据块与数据节点的映射表）

HDFS数据管理策略

数据块副本：为保证数据不丢失，每个数据块三个副本，分布在两个机架的三个节点

心跳检测：DataNode定期向NameNode发送心跳信息

二级NameNode:定期同步元数据映像文件和修改日志

HDFS特点

数据冗余以便于硬件容错

流式的数据访问（一次写入多次读取顺序读写）

存储大文件

HDFS适用性与局限性

适合数据批量读写，吞吐量较高

不适合交互式应用，低延迟很难满足

不支持多个用户并发的写相同的文件

MapReduce基本概念

分而治之的思想，将一个大任务分解成多个小的子任务（map），并行执行后，合并结果（reduce）

　 job与task　　一个job会被拆分成多个task，每一个task会分为map-task与reduce-task

jobTracker 　作业调度、分配任务、监控任务执行进度　监控taskTracker状态

taskTracker　执行任务　汇报任务状态

MapReduce容错机制

　重复执行重复执行四次，以防止硬件上出现的错误

　推测执行不会因为某一个tracker出现问题，影响整个job的执行效率

吾会飞飞飞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初始Hadoop 1

大数据下的困惑随着数据规模的不断增长，单一的系统存储存在着存储容量、读写速率、计算效率等瓶颈。 Google针对这个问题提出了 MapReduce BigTable GFS 三大理论，具有三大优势。优势一：成本降低、能用PC机、就不使用大型机与高端存储。优势二：软件保持容错性，硬件的故障视为一种常态，通过软件保持其可靠性。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。