Hadoop
Hadoop
绣花针
心有猛虎,细嗅蔷薇
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop之HDFS架构
目录 一、HDFS概念 二、优势 1.高容错性 2.适合批处理 3.适合大数据处理 4.流式文件访问 5.可构建在廉价机器上 三、劣势 1.不适合低延时数据访问 2.不适合小文件存储 3.不适合并发写入、文件随机修改 四、架构图 1.Client(客户端) 2.NameNode(master,它是一个主管、管理者) 3.DataNode(slave,NameNode ...原创 2019-02-01 14:58:30 · 531 阅读 · 0 评论 -
Hadoop之MR简单例子(分组统计手机号通讯总数,降序排序)
一、Map/Reduce /** * @program: HadoopDemo * @description: 排序后的通讯情况 * @author: Mario * @create: 2019-03-17 21:36 **/ public class SortMR { //使排序实体作为输出的key public static class SortMapp...原创 2019-04-18 22:31:35 · 773 阅读 · 0 评论 -
Hadoop之MR简单例子(分组统计手机号通讯总数)
一、测试数据 目标:按照归属地分组统计出手机号通讯总数 手机号 归属地 打出电话 接收电话 15367483854 长沙 38 65 15367483855 长沙 87 47 15367483855 长沙 158 75 15367483852 长沙 2 15 15367483854 长沙 2 15 15367483850 长沙 48 22 15367483851 长沙 10...原创 2019-03-17 21:35:51 · 1001 阅读 · 0 评论 -
Hadoop之Windows环境下提交Job至YARN集群
一、使用前提 1.配置windows环境变量Hadoop 2.下载winutils.exe和hadoop.dll,hadoop.lib等windows的hadoop依赖文件放在本机hadoop\bin目录下 二、方案一(使用Configuration配置相关属性) 创建一个Configuration对象时,其构造方法会默认加载hadoop中的相关配置文件core-site.x...原创 2019-02-20 16:32:18 · 925 阅读 · 0 评论 -
Hadoop之Win无法提交至Linux集群YARN报错问题/bin/bash: line 0: fg: no job control
编辑src下的mapred-site.xml,添加如下属性: <property> <name>mapred.remote.os</name> <value>Linux</value> <description>Remote MapReduce framewo...原创 2019-02-20 14:27:23 · 355 阅读 · 0 评论 -
Hadoop之YARN框架
目录 一、YARN简介 二、YARN背景 1.MRv1架构(Master/Slave主从结构) 2.MRv1架构缺陷 3.YARN诞生 三、YARN架构(Master/Slave结构) 1.核心组件 2.优势 四、YARN执行流程 1.客户端提交作业 2.与NM通信并分配Container启动其中AM 3.启动AM并向RM注册 4.注册后与NM通信分配Container启...原创 2019-02-20 10:52:17 · 536 阅读 · 0 评论 -
Hadoop之Java客户端操作HDFS
public class HdfsUtil { private FileSystem fs = null; @Before public void init() throws Exception { //读取classpath下的core-site.xml配置文件 Configuration conf = new Configurati...原创 2019-02-13 16:33:12 · 386 阅读 · 0 评论 -
Hadoop之MapReduce架构
一、MapReduce简介 MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。 MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。 MapReduce计算模型主要由三个阶段构成:Map、Shuffle(不需要我们操作,框架已实现)、Reduce。Map是映射,负责数据的过滤分类...原创 2019-02-19 15:22:44 · 595 阅读 · 0 评论 -
Hadoop之DataNode工作流程
一、简介 DataNode提供真实文件数据的存储服务,通过文件块(block最基本的存储单位)来存储。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。 HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block;不同于普通文件系统的是,HDFS中,如果一个文...原创 2019-02-12 14:42:09 · 871 阅读 · 0 评论 -
Hadoop之常用Shell命令
目录 一、启动命令 1.启动Hadoop所有进程 2.单进程启动(推荐) 二、常用Shell命令 1.查看指定目录下内容 2.查看某个文件内容 3.将本地文件存储至hadoop 4.将本地文件夹存储至hadoop 5.将hadoop上某个文件下载至本地已有目录下 6. 删除hadoop上指定文件 7.删除hadoop上指定文件夹(包含子目录等) 8.在hadoop指定目录...原创 2019-01-30 21:52:44 · 2026 阅读 · 0 评论 -
Hadoop之RPC远程过程调用
目录 一、RPC 1.概念 2.特点 二、Hadoop中RPC机制 1.Hadoop RPC对外提供接口(见类org.apache.hadoop.ipc.RPC) 2.简单应用 一、RPC 1.概念 RPC(Remote Procedure Call)远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TC...原创 2019-02-16 17:25:45 · 617 阅读 · 0 评论 -
Hadoop之NameNode工作流程(非HA机制)
目录 一、简介 二、功能 1.管理元数据 2.维护目录树 3.响应客户请求 三、工作流程 1.高并发问题 2.具体流程 3.指定checkpoint时间 4.遗留问题 一、简介 NameNode负责:文件元数据信息的操作以及处理客户端的请求 NameNode管理:HDFS文件系统的命名空间NameSpace NameNode维护:文...原创 2019-02-01 16:16:38 · 854 阅读 · 0 评论 -
Hadoop之MR简单例子(分组统计手机号通讯总数,降序排序,分组统计)
一、自定义分组规则 /** * @program: HadoopDemo * @description: 区域分块 * @author: Mario * @create: 2019-04-18 22:35 */ public class AreaPartitioner<KEY,VALUE> extends Partitioner<KEY,VALUE> { ...原创 2019-04-18 23:03:29 · 625 阅读 · 0 评论
分享