hadoop
西兰花是真的菜
这个作者很懒,什么都没留下…
展开
-
Hadoop系列(九)Hadoop三大核心之Yarn-资源调度详解
文章目录Yarn的调度流程详解Yarn的调度策略1.FIFO先进先出调度2.Capacity 容量调度机制3.Fair 公平调度机制Yarn的调度流程详解Client端提交作业到ResourceManager中的ApplicationManager,申请JobID(唯一ID)RM返回一个作业ID,并且将一个临时hdfs路径返回给 Client,要求Client将要上传的文件发送到这...原创 2020-03-27 23:43:37 · 529 阅读 · 0 评论 -
Hadoop系列(八)Hadoop三大核心之Yarn-资源调度初探
文章目录0. Yarn的来源1. YARN概述2. YARN的重要组成部分2.1 ResourceManager(1)Application Manager 应用程序管理器(2)Scheduler 资源调度器2.2 NodeManager2.3 逻辑上的组件Application Master3. Container 资源池4. 小结0. Yarn的来源 hadoop 1.x的时代...原创 2020-03-27 23:41:23 · 688 阅读 · 0 评论 -
Hadoop系列(七)Hadoop三大核心之MapReduce-程序编写
文章目录1. 准备部分2. jar包依赖3. Map部分4.Reduce部分5.提交部分6.打包提交接下来以一个简单的WordCount为例子,介绍Java版本的MapReduce的程序编写。mapreduce程序主要分三部分:1.map部分,2.reduce部分,3.提交部分。1. 准备部分hadoop中,针对数据类型自成一体,与java的数据类型对应。封装在hadoop.io包中,主要...原创 2020-03-27 23:39:59 · 326 阅读 · 0 评论 -
Hadoop系列(六)Hadoop三大核心之MapReduce 基础
文章目录MapReduce背景MapReduce是什么MapReduce的架构简单介绍MapReduce背景在程序由单机版扩成分布式版时,会引入大量的复杂工作。为了提高开发效率,可以将分布式程序中的公共功能封装成框架,让开发人员可以将精力集中于业务逻辑。Hadoop 当中的 MapReduce 就是这样的一个分布式程序运算框架。MapReduce是什么MapReduce是一个分布式运算程序...原创 2020-03-27 23:39:11 · 424 阅读 · 0 评论 -
Hadoop系列(五)Hadoop三大核心之HDFS 读写流程
文章目录HDFS写数据流程HDFS读流程首先,再回顾一下HDFS的架构图HDFS写数据流程客户端发送请求,调用DistributedFileSystem API的create方法去请求namenode,并告诉namenode上传文件的文件名、文件大小、文件拥有者。namenode根据以上信息算出文件需要切成多少块block,以及block要存放在哪个datanode上,并将这些信息返...原创 2020-03-27 23:37:50 · 282 阅读 · 0 评论 -
Hadoop系列(四)Hadoop三大核心之HDFS Java API
文章目录概念具体操作HDFS 设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量的文件。HDFS 将这些文件分割之后,存储在不同的 DataNode 上,HDFS 提供了通过Java API 对 HDFS 里面的文件进行操作的功能,数据块在 DataNode 上的存放位置,对于开发者来说是透明的。使用 Java API 可以完成对 HDFS 的各种操作,如新建文件、删除文件、读...原创 2020-03-27 23:36:20 · 295 阅读 · 0 评论 -
Hadoop系列(三)Hadoop三大核心之HDFS shell常用命令
文章目录HDFS常用命令help 查看所有命令查看路径文件创建文件夹创建多级文件夹查看指定目录下和子目录下所有文件上传文件下载文件合并下载复制移动或重命名删除强制删除查看文件内容统计文件行数返回文件前n行(以10行为例)返回文件后n行(以10行为例)随机返回n行(以10行为例)显示文件大小testweb界面HDFS常用命令help 查看所有命令[172.23.7.9:hadoop]$ had...原创 2020-03-27 23:35:02 · 600 阅读 · 0 评论 -
Hadoop系列(二)Hadoop三大核心之HDFS基础
文章目录hdfs基础重要概念数据块NameNode(NN)DataNode(DN)Secondary NameNode (SNN)Hadoop 特点Hadoop HA可靠性单点故障问题针对海量数据,核心问题始终是计算和存储。当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并存储到多台机器上。跨机器存储的文件系统就被成为分布式文件系统。分布式系统架构于网络之上,势必引入网...原创 2020-03-27 23:32:40 · 575 阅读 · 0 评论 -
Hadoop系列(一)开篇简介
文章目录Hadoop是什么总结Hadoop的起源Hadoop版本与架构核心Hadoop理念PS谁说大象不会跳舞Hadoop是什么Hadoop的官网:http://hadoop.apache.org/官网定义:The Apache Hadoop software library is a framework that allows for the distributed processing...原创 2020-03-27 23:14:38 · 214 阅读 · 0 评论 -
Hadoop部署安装 Hadoop3.1.2的完全分布式部署
文章目录大纲〇、Hadoop下载地址一、分配机器环境二、SSH配置三、分布式配置部署启动大纲机器环境及SSH预处理hadoop安装部署〇、Hadoop下载地址采用apache官网下载地址进行下载apache索引目录 Index of /dist此处使用了 hadoop-3.1.2.tar.gz一、分配机器环境共3台机器172.23.7.9172.23.7.10172...原创 2020-03-27 23:12:36 · 295 阅读 · 0 评论