2018年04月_阿华田512

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创 Hadoop之hdfs的工作原理和安装

一 HDFS简介（Hadoop Distributed File System）1简介：是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很...

2018-04-08 22:32:07 852

原创 redis的安装与使用

下载redis因为redis一般会在linux系统进行安装，所以下载时要下载linux系统的安装包。官网地址：http://redis.io/下载地址：http://download.redis.io/releases/redis-3.2.8.tar.gz因为Redis是用c语言写的需要需要现编译在安装编译工具：make BuildFileant build.xml...

2018-04-01 16:52:26 417

原创 Zookeeper原理解析与使用

一简介ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。二主要功能分布式系统中的主从协调分布式系统中的名称服务分布式系统中的分布式共享锁分布式系统中的配置文件同步分布式...

2018-04-29 18:10:03 951

原创 mapreduce的cleanUp和setUp的特殊用法（TopN问题）和常规用法

特殊用法我们上来不讲普通用法，普通用法放到最后。我们来谈一谈特殊用法，了解这一用法，让你的mapreduce编程能力提高一个档次，毫不夸张！！！扯淡了，让我们进入正题：我们知道reduce和map都有一个局限性就是map是读一行执行一次，reduce是每一组执行一次,但是当我们想全部得到数据之后，按照需求删选然后再输出怎么办？这时候只使用map和r...

2018-04-21 15:41:26 6502 7

原创 hadoop2.0之mapReduce启动运行全流程解析

mapReduce在Hadoop2.x中各部分简介：ResourceManager，RM：管理集群上资源使用的资源管理器：Application Master,AM：管理集群上运行任务声明周期的应用管理器：应用服务器MA和资源管理器RM协商集群的计算资源：容器（Container，每个容器都有特定的内存上线），在这些容器上运行特定应用程序的进程，容器由集群节点...

2018-04-20 16:55:35 2598 4

原创 MapReduce 程序内部数据处理流程全解析

主要分为以下几个阶段：1.输入分片（input split）：InputFormat有两个任务：对源文件分片，确定Mapper数量；对分片进行格式化，处理成<key,value>形式的数据给Mapper在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input...

2018-04-20 16:46:07 2253

一理解java内存模型之前的知识补充计算机在执行程序时，每条指令都是在CPU中执行的，而执行指令过程中，势必涉及到数据的读取和写入。由于程序运行过程中的临时数据是存放在主存（物理内存）当中的，由于CPU执行速度很快，而从内存读取数据和向内存写入数据的过程跟CPU执行指令的速度比起来要慢的多，因此如果任何时候对数据的操作都要通过和内存的交互来进行，会大大降低指令执行的速度。因此在CPU里面就有了高...

2018-04-13 21:15:34 304

原创 YARN集群搭建与使用

一 yarn简介Yarn（Yet Another Resource Negotiator）是Hadoop集群的资源管理系统，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。二 YARN的核心思想将JobTracker和TaskTracker进行分离，它由下面几大构成组件：a. 一个全局的资源管理器 ...

2018-04-13 17:50:08 3709

原创 MapReduce核心原理与使用

一MapReduce介绍MapReduce是一种可用于数据处理的编程框架。MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。在分布式计算中，MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均...

2018-04-13 17:24:15 1486

原创 hdfs对文件的读取的内部流程及原理

客户端写数据到HDFS的流程客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本写详细步骤：1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目...

2018-04-11 23:57:46 1009

原创 java基础终极总结（二）

备注：本文篇幅较大开头是目录按住ctrl 点击蓝色的标题即可查看相关内容方法的重载与重写 2数组 5Arrays常用方法 7空引用异常 8数组常用的方法 8二维数组 10构造方法 11单例模式 12代码块 13静态代码块 13静态代码块什么时候执行 14.Class.forName() 14 16继承中的代码块和构造方法的执行顺序探索 16类与对象 18Java对象创建内存模型 18参数传...

2018-04-01 14:32:13 1004