HADOOP
文章平均质量分 60
Kuzury
这个作者很懒,什么都没留下…
展开
-
理解Hadoop通信 RPC
远程过程调用(Remote Procedure Call, RPC) 是一种常用的分布式网络通信协议, 它允许运行于一台计算机的程序调用另一台计算机的子程序, 同时将网络的通信细节隐藏起来, 使得用户无须额外地为这个交互作用编程。RPC 是一种通过网络从远程计算机上请求服务, 但不需要了解底层网络技术的协议。RPC 协议假定某些传输协议(如 TCP 或 UDP 等) 已经存在, 并通过这些传输协议为原创 2017-07-31 14:29:57 · 1235 阅读 · 0 评论 -
漫画HDFS原理
漫画讲解HDFS原理 分布式文件系统比较出名的有HDFS 和 GFS,其中HDFS比较简单一点。本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理。比一般PPT要通俗易懂很多。不难得的学习资料。1、三个部分: 客户端、nameserver(可理解为主控和文件索引类似linux的inode)、datanode(存放实际数据的存server) 2、如何写数据过程转载 2017-07-03 10:44:25 · 509 阅读 · 0 评论 -
HDFS 读写流程
1 HDFS如上图所示,HDFS也是基于Master/Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsim原创 2017-07-03 10:30:08 · 563 阅读 · 0 评论 -
Hadoop MR &MRv2(YARN)编程模型
1 MapReduce编程模型 MapReduce将作业的整个运行过程分为两个阶段:Map阶段和Reduce阶段 Map阶段由一定数量的Map Task组成 输入数据格式解析:InputFormat 输入数据处理:Mapper 数据分组:Partitioner Reduce阶段由一定数量的Reduce Task组成 数据远程拷贝原创 2017-07-05 14:18:22 · 3901 阅读 · 0 评论 -
大数据应用统一集成平台CDAP简介
CDAP概述 CDAP的特性 CDAP的架构和技术CDAP的适用场景CDAP的优缺点 总结CDAP概述 CDAP (CAST DATA APPLICATION PLATFORM)是一个开源的大数据应用统一集平台,帮助应用开发者和系统管理员基于Hadoop技术栈来构建、测试、部署、管理数据应用程序。CDAP由Datasets、Programs、 Services、Tools等组件原创 2017-09-22 09:53:04 · 15241 阅读 · 0 评论 -
提高HBase WAL写入性能
问题描述: HBase在集成其它组件,作为存储引擎完成组合服务时,往往是数据先写入HBase,然后对数据进行检索,之后数据通过网络传输给目标服务。HBase与组件之间的数据一致性使用WAL来保证。WAL是一种常用的保证数据可靠写入的一种技术,全称为Write-Ahead-Log,就是在向客户端返回写成功前,先将写操作在WAL中记录下来。这样即便系统在数据写入的过程中出现宕机等情况,也可以通原创 2017-09-22 10:51:39 · 3821 阅读 · 0 评论