自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

翻译 YARN 初识

Apache YARN (Yet Another Resource Negotiator,另一个资源协调者)是Hadoop的集群资源管理系统,它从Hadoop 2.0版本开始被引入,主要是为了改进MapReduce的实现,可以很好地支持其它的分布式计算模式。YARN提供了请求和使用集群资源的API,但这些API通常不能由用户代码直接使用,而是使用由分布式集群框架提供的更高级的API,这些框架构

2015-08-30 19:00:07 1424

翻译 MapReduce 初识

MapReduce是一种中大数据处理编程模型,它的思想来源于Google的几篇论文,可以把它理解为:把一堆混乱的数据按照某种特征归纳起来,然后处理并得到结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取数据的特征。经过MapReduce的shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们做进一步的处理,便得到了

2015-08-29 06:59:41 683

转载 HDFS Federation

1. 当前HDFS架构和功能概述我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace management)和块/存储管理服务(block/storage management)。1.1 命名空间管理HDFS的命名空间包含目录、文件和块。命名空间管理:是指命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、

2015-08-28 07:22:01 531

转载 HDFS集中式的缓存管理原理与代码剖析

Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理、架构和代码剖析三个角度来探讨这一功能。主要解决了哪些问题用户可以根据自己的逻辑指定一些经常被使用的数据或者高优先级任务对应的数据,让他们常驻内存而不被

2015-08-27 16:53:15 630

翻译 HDFS 初识

当一个数据集在一个物理机上增长得容不下的时候,就需要把它分区存放到多个独立的机器上,这就要通过网络来管理分布在这些机器上的数据,像这样通过网络来管理数据的文件系统称之为分布式文件系统(distributed filesystems)。Hadoop中的分布式文件系统为HDFS,其设计用来存储较大的文件、通过流的方式访问数据,在普通的商业硬件集群上运行。存储文件较大:通常上百GB,或者上百TB

2015-08-27 15:56:15 1586

快学Scala 中文版 带目录

快学Scala 中文版 带目录

2015-07-28

最近整理的中文停用词列表(1704个)

最近整理的中文停用词列表

2014-08-19

较好的java面试题275

最近有点时间,就整理了一下前段时间的面试题,很实用的。。。

2011-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除