–Hadoop权威指南阅读笔记
1、关系型数据库与MapReduce的比较:
RDBMS | MapReduce | |
---|---|---|
数据大小 | GB | PB |
数据存取 | 交互式和批处理 | 批处理 |
更新 | 多次读/写 | 一次写入,多次读取 |
事物 | ACID | 无 |
结构 | 写时模式 | 读时模式 |
完整性 | 高 | 低 |
横向扩展 | 非线性的 | 线性的 |
MapReduce是一种可用于数据处理的编程模型。MapReduce程序本质上是并行运行的,可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心
2、关于YARN
Apache YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统。YARN最初被引入Hadoop2是为了改善MapReduce的实现,但其具有足够的通用性,可以支持其他分布式计算模式。
YARN提供请求和使用集群资源的API,但这些API很少直接用于用户代码,用户代码中使用的是建立在YARN之上的分布式计算框架提供的更高层API。一些分布式计算框架(MapReduce、Spark等)作为YARN应用运行在集群计算层(YARN)和集群存储层&#