二 大数据操作系统
2.1 基本概念
1. 分布式系统的要求:
- 容错性:组件失败不能导致整个系统故障,可以影响性能
- 可恢复性:发生故障不能丢数据
- 一致性:一个作业或任务的失败不能影响最后的结果
- 可扩展性:负载增加导致性能的下降,资源增加使得存储和计算能力增强
2. 为了满足以上的要求提出了一些抽象概念:
- 节点处理本地存储的数据,以将网络流量最小化
- 每个数据块跨系统多次复制,以提供冗余和数据安全
- 节点在处理任务期间,之间不会互相通信,没有依赖关系
2.2 hadoop架构
- HDFS:管理存储在集群中磁盘上的数据
- YARN:集群资源管理器,将计算资源(节点上的处理能力和内存)分配给希望执行分布式计算的应用程序
2.2.1 hadoop集群
- 根据节点上面运行的服务标识是节点类型(master节点/worker节点)
- master节点:为worker节点提供协调服务,是用户访问集群的入口点
- 这些服务都是守护进程&#