![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
关于我转生变成程序猿这档事
这个作者很懒,什么都没留下…
展开
-
【Hadoop】Yarn —— 调度计算核心
Yarn概述主要角色运行流程(重点)调度策略概述Yarn是 Hadoop 2.x 引入的新的资源管理系统模块,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,比如内存、CPU等),它不光管理硬件资源,还管理运行的一些任务信息等。Yarn调度资源可以分为两个层级:一级管理调度:管理计算机的资源、运行job任务的生命周期二级管理调度:任务的计算模型(maptask,reducetask的代码)、多样化的计算模型(spark,storm)主要角色角色作用Resour原创 2020-09-26 11:02:42 · 314 阅读 · 1 评论 -
【Hadoop】MapReduce —— 大数据的核心思想体现
MapReduce概述MapTask运行流程ReduceTask运行流程Shuffle 是什么?编写 Java API步骤简单 API 实例Mapper 类编写Reduce 类编写Driver 类编写概述MapReduce 的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景)。最主要的特点就是把一个大的问题,划分成很多小的子问题,并且每个小的子问题的求取思路与我们大问题的求取思路一样。最主要有两个阶段:一个map阶段,负责拆分;一个是reduce阶段,负责聚合。一个文件切块(原创 2020-09-26 09:55:06 · 371 阅读 · 0 评论 -
【Hadoop】HDFS —— 大数据入门必须要了解的知识点
HDFS什么是 HDFS ?主要角色分块存储机制副本机制读写文件流程读取文件流程图写入文件流程图常用命令基础命令使用高级命令使用什么是 HDFS ?全称 Hadoop Distributed File System,中文翻译过来就是 分布式文件系统。那么,何为分布式文件系统呢?可以参考下图。这是依靠我自己的理解画出的 HDFS 的架构。从图中可以看到 HDFS 本身的一些特性:首先分布式文件系统不是由一台服务器实现的,而是多台服务器。比如 node 01/ node 02/ node 03/ 三原创 2020-09-26 00:19:55 · 328 阅读 · 0 评论