前沿
由于算法评测脚本需要hadoop相关知识,故习之
为什么hadoop会出现?我们的算法评测系统为什么要使用hadoop?
因为目前基于单个服务器的性能已经满足不了大数据存储的要求,因此提出分布式的概念去满足大数据的存储,使得大数据存储在不同的机器上,从而提高性能。
分布式文件系统,用来满足大数据的存储,每个数据文件大致在GB以上的级别
由于算法评测系统本身会有很大的testdata以及model以及sdk,因此满足大数据的特征,所使用hadoop的分布式文件系统进行存储,
什么是hadoop?我们的系统用到了hadoop的什么?
分布式==hadoop(分布式存储、分布式计算、分布式资源管理)
Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。
hadoop的两个概念,MapReduce算法和Hadoop分布式文件系统。
算法评测系统本身的后台就是一个分布式系统,提供一个分布式存储利用hadoop
hadoop架构?存储用的什么?计算用的什么?资源管理用的什么?
HDFS?分布式文件存储?hdfs如何存储?hdfs读?hdfs写?hdfs可靠吗?
hdfs存储
block?:分布式文件系统基础的存储单位,存储数据的最小单位
namenode:保存每一个block的元信息
secondarynamenode:定期与namenode进行block的信息同步
datanode:保存具体的block数据
hdfs写
hdfs读
datanode失效了怎么办?定期 心跳检测,选择性健康复制
hadoop分布式文件存储的可靠性来源于他的健康检查与冗余存储
yarn怎么管理的资源
YARN - ResourceManager
负责全局的资源管理和任务调度,把整个集群当&##x6210;计算资源池,只关注分配,不管应用,且不负责容错
YARN - ApplicationMaster
单个作业的资源管理和任务监控