Hadoop数据分析-第二章大数据操作系统-读书笔记

本文是关于Hadoop大数据操作系统的读书笔记,详细介绍了Hadoop的基本概念、架构,包括HDFS和YARN。HDFS强调数据的分布式存储和容错性,而YARN负责集群资源管理。文中还探讨了HDFS的文件块、数据管理和Secondary NameNode的作用,以及MapReduce的执行流程和常见问题。
摘要由CSDN通过智能技术生成

二 大数据操作系统

2.1 基本概念

1. 分布式系统的要求:

  • 容错性:组件失败不能导致整个系统故障,可以影响性能
  • 可恢复性:发生故障不能丢数据
  • 一致性:一个作业或任务的失败不能影响最后的结果
  • 可扩展性:负载增加导致性能的下降,资源增加使得存储和计算能力增强

2. 为了满足以上的要求提出了一些抽象概念:

  • 节点处理本地存储的数据,以将网络流量最小化
  • 每个数据块跨系统多次复制,以提供冗余和数据安全
  • 节点在处理任务期间,之间不会互相通信,没有依赖关系
2.2 hadoop架构

在这里插入图片描述

  • HDFS:管理存储在集群中磁盘上的数据
  • YARN:集群资源管理器,将计算资源(节点上的处理能力和内存)分配给希望执行分布式计算的应用程序
2.2.1 hadoop集群
  • 根据节点上面运行的服务标识是节点类型(master节点/worker节点)
  • master节点:为worker节点提供协调服务,是用户访问集群的入口点
  • 这些服务都是守护进程&#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值