2015年09月_fan_rockrock

12月 11月 10月 09月 08月 07月 03月 02月 01月

原创 ZooKeeper

一、ZK简介 (1)什么是ZK (2)zk体系架构 (3)数据模型、节点 Zookeeper 这种数据结构有如下这些特点： 1. 每个子目录项如 NameService 都被称作为 znode，这个 znode 是它所在的路径唯一标识，如 Server1 这个 znode 的

2015-09-30 19:41:55 873

原创 MapReduce(五)：表关联

给出：Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Jesse输出：Tom AliceTom JesseJone AliceJone JesseTom MaryTom BenJone M

2015-09-22 14:55:13 542

原创 MapReduce V2---Yarn的架构及其执行原理

1.MRv1的局限性 1)：扩展性差 MRv1中，Jobracker同事兼备了资源管理和作业控制两个功能。 2)：可靠性差 MRv1才用了master/slave结构，master存在单点故障的问题。 3)：资源利用率低 MRv1采用了基于槽位的资源分配模型，槽位是一种粗粒度的资源划分

2015-09-22 11:10:59 1632

原创 MapReduce(四)：shuffer原理

reducer如何知道要从哪个tasktracker取得map输出呢？ map任务成功完成以后，他们会通知其父tasktracker状态已更新，然后taskTracker进而通知jobTracker。这些通知在前面的心跳机制中传输。因此，对于指定作业，jobTracker知道map输出和taskTracker之间的映射关系。reducer中的一个线程定期询问jobTracher以

2015-09-18 20:08:24 2676

原创 MapReduce(三)：分区、排序、合并

1.分区实现分区的步骤：1.1先分析一下具体的业务逻辑，确定大概有多少个分区1.2首先书写一个类，它要继承org.apache.hadoop.mapreduce.Partitioner这个类1.3重写public int getPartition这个方法，根据具体逻辑，读数据库或者配置返回相同的数字1.4在main方法中设置Partioner的类，job.setPa

2015-09-18 11:18:39 2669

原创 Mapreduce(二)：MR的执行过程分析

1.MR的作业执行流程图 (1).客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)(2).JobClient通过RPC和JobTracker进行通信，返回一个存放jar包的地址（HDFS）和jobId(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)

2015-09-16 15:48:09 1052

原创 MapReduce(一)：入门级程序wordcount及其分析

1.MapReduce处理过程 map函数接收一个形式的输入，然后同样产生一个形式的中间输出，reduce函数接收一个如形式的输入，然后对这个value集合进行处理，每个reduce产生0或1个输出，reduce的输出也是形式的。2.特别数据类型简介　Hadoop提供了如下内容的数据类型，这些数据类型都实现了WritableComparable接口，以便用这些类型定义的数

2015-09-15 17:14:23 1280

原创 hdfs体系

1.Namenode (1)是整个文件系统的管理节点 (2)它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。 (3)接收用户的操作请求元数据信息：举例见下图文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好

2015-09-08 16:54:21 550