- 博客(5)
- 资源 (3)
- 收藏
- 关注
翻译 YARN 初识
Apache YARN (Yet Another Resource Negotiator,另一个资源协调者)是Hadoop的集群资源管理系统,它从Hadoop 2.0版本开始被引入,主要是为了改进MapReduce的实现,可以很好地支持其它的分布式计算模式。YARN提供了请求和使用集群资源的API,但这些API通常不能由用户代码直接使用,而是使用由分布式集群框架提供的更高级的API,这些框架构
2015-08-30 19:00:07 1424
翻译 MapReduce 初识
MapReduce是一种中大数据处理编程模型,它的思想来源于Google的几篇论文,可以把它理解为:把一堆混乱的数据按照某种特征归纳起来,然后处理并得到结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取数据的特征。经过MapReduce的shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们做进一步的处理,便得到了
2015-08-29 06:59:41 683
转载 HDFS Federation
1. 当前HDFS架构和功能概述我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace management)和块/存储管理服务(block/storage management)。1.1 命名空间管理HDFS的命名空间包含目录、文件和块。命名空间管理:是指命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、
2015-08-28 07:22:01 531
转载 HDFS集中式的缓存管理原理与代码剖析
Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理、架构和代码剖析三个角度来探讨这一功能。主要解决了哪些问题用户可以根据自己的逻辑指定一些经常被使用的数据或者高优先级任务对应的数据,让他们常驻内存而不被
2015-08-27 16:53:15 630
翻译 HDFS 初识
当一个数据集在一个物理机上增长得容不下的时候,就需要把它分区存放到多个独立的机器上,这就要通过网络来管理分布在这些机器上的数据,像这样通过网络来管理数据的文件系统称之为分布式文件系统(distributed filesystems)。Hadoop中的分布式文件系统为HDFS,其设计用来存储较大的文件、通过流的方式访问数据,在普通的商业硬件集群上运行。存储文件较大:通常上百GB,或者上百TB
2015-08-27 15:56:15 1586
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人