hadoop学习(一)

前沿

由于算法评测脚本需要hadoop相关知识,故习之

为什么hadoop会出现?我们的算法评测系统为什么要使用hadoop?

因为目前基于单个服务器的性能已经满足不了大数据存储的要求,因此提出分布式的概念去满足大数据的存储,使得大数据存储在不同的机器上,从而提高性能。

分布式文件系统,用来满足大数据的存储,每个数据文件大致在GB以上的级别

由于算法评测系统本身会有很大的testdata以及model以及sdk,因此满足大数据的特征,所使用hadoop的分布式文件系统进行存储,

什么是hadoop?我们的系统用到了hadoop的什么?

分布式==hadoop(分布式存储、分布式计算、分布式资源管理)

Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。

hadoop的两个概念,MapReduce算法和Hadoop分布式文件系统。

算法评测系统本身的后台就是一个分布式系统,提供一个分布式存储利用hadoop

hadoop架构?存储用的什么?计算用的什么?资源管理用的什么?

HDFS?分布式文件存储?hdfs如何存储?hdfs读?hdfs写?hdfs可靠吗?

hdfs存储

block?:分布式文件系统基础的存储单位,存储数据的最小单位

namenode:保存每一个block的元信息

secondarynamenode:定期与namenode进行block的信息同步

datanode:保存具体的block数据

 

hdfs写

hdfs读

datanode失效了怎么办?定期 心跳检测,选择性健康复制

hadoop分布式文件存储的可靠性来源于他的健康检查与冗余存储

yarn怎么管理的资源

YARN - ResourceManager

负责全局的资源管理和任务调度,把整个集群当&##x6210;计算资源池,只关注分配,不管应用,且不负责容错

YARN - ApplicationMaster

单个作业的资源管理和任务监控

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值