Hadoop
Hadoop
绣花针
心有猛虎,细嗅蔷薇
展开
-
Hadoop之HDFS架构
目录一、HDFS概念二、优势1.高容错性2.适合批处理3.适合大数据处理4.流式文件访问5.可构建在廉价机器上三、劣势1.不适合低延时数据访问2.不适合小文件存储3.不适合并发写入、文件随机修改四、架构图1.Client(客户端)2.NameNode(master,它是一个主管、管理者)3.DataNode(slave,NameNode ...原创 2019-02-01 14:58:30 · 394 阅读 · 0 评论 -
Hadoop之MR简单例子(分组统计手机号通讯总数,降序排序)
一、Map/Reduce/** * @program: HadoopDemo * @description: 排序后的通讯情况 * @author: Mario * @create: 2019-03-17 21:36 **/public class SortMR { //使排序实体作为输出的key public static class SortMapp...原创 2019-04-18 22:31:35 · 674 阅读 · 0 评论 -
Hadoop之MR简单例子(分组统计手机号通讯总数)
一、测试数据目标:按照归属地分组统计出手机号通讯总数手机号 归属地 打出电话 接收电话15367483854 长沙 38 6515367483855 长沙 87 4715367483855 长沙 158 7515367483852 长沙 2 1515367483854 长沙 2 1515367483850 长沙 48 2215367483851 长沙 10...原创 2019-03-17 21:35:51 · 903 阅读 · 0 评论 -
Hadoop之Windows环境下提交Job至YARN集群
一、使用前提1.配置windows环境变量Hadoop2.下载winutils.exe和hadoop.dll,hadoop.lib等windows的hadoop依赖文件放在本机hadoop\bin目录下 二、方案一(使用Configuration配置相关属性)创建一个Configuration对象时,其构造方法会默认加载hadoop中的相关配置文件core-site.x...原创 2019-02-20 16:32:18 · 832 阅读 · 0 评论 -
Hadoop之Win无法提交至Linux集群YARN报错问题/bin/bash: line 0: fg: no job control
编辑src下的mapred-site.xml,添加如下属性: <property> <name>mapred.remote.os</name> <value>Linux</value> <description>Remote MapReduce framewo...原创 2019-02-20 14:27:23 · 283 阅读 · 0 评论 -
Hadoop之YARN框架
目录一、YARN简介二、YARN背景1.MRv1架构(Master/Slave主从结构)2.MRv1架构缺陷3.YARN诞生三、YARN架构(Master/Slave结构)1.核心组件2.优势四、YARN执行流程1.客户端提交作业2.与NM通信并分配Container启动其中AM3.启动AM并向RM注册4.注册后与NM通信分配Container启...原创 2019-02-20 10:52:17 · 410 阅读 · 0 评论 -
Hadoop之Java客户端操作HDFS
public class HdfsUtil { private FileSystem fs = null; @Before public void init() throws Exception { //读取classpath下的core-site.xml配置文件 Configuration conf = new Configurati...原创 2019-02-13 16:33:12 · 318 阅读 · 0 评论 -
Hadoop之MapReduce架构
一、MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce计算模型主要由三个阶段构成:Map、Shuffle(不需要我们操作,框架已实现)、Reduce。Map是映射,负责数据的过滤分类...原创 2019-02-19 15:22:44 · 483 阅读 · 0 评论 -
Hadoop之DataNode工作流程
一、简介DataNode提供真实文件数据的存储服务,通过文件块(block最基本的存储单位)来存储。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block;不同于普通文件系统的是,HDFS中,如果一个文...原创 2019-02-12 14:42:09 · 742 阅读 · 0 评论 -
Hadoop之常用Shell命令
目录一、启动命令1.启动Hadoop所有进程2.单进程启动(推荐)二、常用Shell命令1.查看指定目录下内容2.查看某个文件内容3.将本地文件存储至hadoop4.将本地文件夹存储至hadoop5.将hadoop上某个文件下载至本地已有目录下 6. 删除hadoop上指定文件7.删除hadoop上指定文件夹(包含子目录等)8.在hadoop指定目录...原创 2019-01-30 21:52:44 · 1809 阅读 · 0 评论 -
Hadoop之RPC远程过程调用
目录一、RPC1.概念2.特点二、Hadoop中RPC机制1.Hadoop RPC对外提供接口(见类org.apache.hadoop.ipc.RPC)2.简单应用一、RPC1.概念RPC(Remote Procedure Call)远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TC...原创 2019-02-16 17:25:45 · 474 阅读 · 0 评论 -
Hadoop之NameNode工作流程(非HA机制)
目录一、简介二、功能1.管理元数据2.维护目录树3.响应客户请求三、工作流程1.高并发问题2.具体流程3.指定checkpoint时间4.遗留问题一、简介NameNode负责:文件元数据信息的操作以及处理客户端的请求 NameNode管理:HDFS文件系统的命名空间NameSpace NameNode维护:文...原创 2019-02-01 16:16:38 · 720 阅读 · 0 评论 -
Hadoop之MR简单例子(分组统计手机号通讯总数,降序排序,分组统计)
一、自定义分组规则/** * @program: HadoopDemo * @description: 区域分块 * @author: Mario * @create: 2019-04-18 22:35 */public class AreaPartitioner<KEY,VALUE> extends Partitioner<KEY,VALUE> { ...原创 2019-04-18 23:03:29 · 528 阅读 · 0 评论