- 博客(8)
- 资源 (6)
- 收藏
- 关注
原创 ZooKeeper
一、ZK简介 (1)什么是ZK (2)zk体系架构 (3)数据模型、节点 Zookeeper 这种数据结构有如下这些特点: 1. 每个子目录项如 NameService 都被称作为 znode,这个 znode 是它所在的路径唯一标识,如 Server1 这 个 znode 的
2015-09-30 19:41:55 873
原创 MapReduce(五):表关联
给出:Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Jesse输出:Tom AliceTom JesseJone AliceJone JesseTom MaryTom BenJone M
2015-09-22 14:55:13 542
原创 MapReduce V2---Yarn的架构及其执行原理
1.MRv1的局限性 1):扩展性差 MRv1中,Jobracker同事兼备了资源管理和作业控制两个功能。 2):可靠性差 MRv1才用了master/slave结构,master存在单点故障的问题。 3):资源利用率低 MRv1采用了基于槽位的资源分配模型,槽位是一种粗粒度的资源划分
2015-09-22 11:10:59 1632
原创 MapReduce(四):shuffer原理
reducer如何知道要从哪个tasktracker取得map输出呢? map任务成功完成以后,他们会通知其父tasktracker状态已更新,然后taskTracker进而通知jobTracker。这些通知在前面的心跳机制中传输。因此,对于指定作业,jobTracker知道map输出和taskTracker之间的映射关系。reducer中的一个线程定期询问jobTracher以
2015-09-18 20:08:24 2676
原创 MapReduce(三):分区、排序、合并
1.分区 实现分区的步骤:1.1先分析一下具体的业务逻辑,确定大概有多少个分区1.2首先书写一个类,它要继承org.apache.hadoop.mapreduce.Partitioner这个类1.3重写public int getPartition这个方法,根据具体逻辑,读数据库或者配置返回相同的数字1.4在main方法中设置Partioner的类,job.setPa
2015-09-18 11:18:39 2669
原创 Mapreduce(二):MR的执行过程分析
1.MR的作业执行流程图 (1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)(2).JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
2015-09-16 15:48:09 1052
原创 MapReduce(一):入门级程序wordcount及其分析
1.MapReduce处理过程 map函数接收一个形式的输入,然后同样产生一个形式的中间输出,reduce函数接收一个如形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是形式的。2.特别数据类型简介 Hadoop提供了如下内容的数据类型,这些数据类型都实现了WritableComparable接口,以便用这些类型定义的数
2015-09-15 17:14:23 1280
原创 hdfs体系
1.Namenode (1)是整个文件系统的管理节点 (2)它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。 (3)接收用户的操作请求 元数据信息:举例见下图 文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好
2015-09-08 16:54:21 550
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人