Hadoop 简介: hadoop 可运行于一般的商用服务器上,具有高容错,高可靠性,高扩展性等特点
适合写一次,读多次的场景。
适合:大规模数据,流式数据(写一次,读多次),商用硬件(一般硬件)
不适合:低延时的数据访问,大量的小文件,频繁修改文件(基本就是写1次)
Hadoop 架构:
HDFS:分布式文件存储
YARN: 分布式资源管理
MapReduce: 分布式计算
Others:利用YARN 的资源管理功能实现其他的数据处理方式
内部各个节点基本都是采用Master-Worker 架构
Hadoop 关键技术:
1. 数据分布在多台机器
可靠性: 每个数据块都复制到多个节点
性能:多个节点同时处理数据
2 计算随数据走
网络IO 速度<< 本地磁盘IO 速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行(程序运行时,将程序及其依赖包都复制到数据所在的机器运行)
代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上。
3 串行IO 代替随机IO
传输时间<< 寻道时间,一般数据写入后不再修改。