大数据基本
温暖会追上来的.
这个作者很懒,什么都没留下…
展开
-
Hadoop基本概念及其HDFS的基本理念
Hadoop是什么?hadoop是一个开源的大数据框架;hadoop是一个的分布式计算的解决方案;hadoop=HDFS(分布式文件操作系统)+MapReduce(分布式计算)。Hadoop的核心?HDFS分布式文件系统:存储是大数据技术的基础;MapReduce编程模型:分布式计算是大数据应用的解决方案。Hadoop基础架构?HDFS概念:HDFS...原创 2019-06-26 15:35:17 · 452 阅读 · 0 评论 -
HDFS分布式文件系统
目录1.HDFS概述及应用场景HDFS适合什么场景?HDFS不适合什么场景?2.HDFS在FusionInsight产品的位置3.HDFS系统架构HDFS写流程:HDFS的读流程:4.关键特性介绍HDFS的高可靠性(HA)元数据持久化HDFS联邦(Federation)数据副本机制配置HDFS数据存储策略分级存储标签存储节点组存...原创 2019-07-18 11:36:03 · 391 阅读 · 0 评论 -
MapReduce分布式离线批处理和YARN资源协调处理
目录1.MapReduce和YARN基本介绍2.MapReduce和YARN功能与架构MapReduce的功能YARN的组件架构MapReduce On YARN任务调度流程YARN HA方案YARN APPMaster容错机制3.YARN的资源管理和任务调度资源管理资源分配模型容量调度器(Capacity Scheduler)容量调度器的特点:...原创 2019-07-21 17:02:53 · 840 阅读 · 0 评论 -
Spark2x基于内存的分布式计算
目录1.Spark概述Spark应用场景:Spark的特点:Spark VS MapReduce:2.Spark原理与架构Spark CoreSpark核心概念RDD:RDD的依赖关系RDD的Stage划分Spark重要角色Spark on Yarn-client的运行流程Spark on Yarn-cluster的运行流程Yarn-...原创 2019-07-27 15:11:35 · 1196 阅读 · 0 评论