文章目录 一、单机处理大数据分布式处理HDFS 模型架构持久化原理副本放置策略 一、 单机处理大数据 单机运行瓶颈在IO 查找重复行:hashCode 全排序:外排序,内排序 分布式处理 HDFS 模型架构 持久化原理 基于内存存储,都需持久化 数据持久化: 日志文件:日志大,加载慢。 镜像:时间间隔,恢复速度快,文件缺失 HDFS:EditsLog:日志。FsImage:镜像,快照。最近时点的FsImage+增量的EditLog 非HA下,流程SNN 副本放置策略 NameNode触发副本放置策略