- 博客(9)
- 收藏
- 关注
转载 How does Impala compare to Shark?
Disclaimer: I lead the Shark development effort at UC Berkeley AMPLab. For more information on Shark, see Lightning Fast Data Warehouse SystemShark extends Apache Hive to dramatically speed up b
2014-02-28 11:23:44 859
转载 yarn详解
背景Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得越来越困难,所以MapReduce的co
2014-02-17 10:14:29 3246
转载 Spark Cluster Mode Overview
ComponentsSpark applications run as independent sets of processes on a cluster, coordinated by the SparkContext object in your main program (called thedriver program). Specifically, to run on a cl
2014-02-16 16:30:12 1113
转载 Quick Explanation of Scala’s (_+_) Syntax
It seems every time I turn around, someone else is railing against Scala for having an enormously cryptic syntax, citing (_+_) as an example. Aside from fact that it looks like an upside-down face, I
2014-02-16 12:09:12 573
转载 深入剖析阿里巴巴云梯YARN集群
摘要:阿里巴巴是国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。本文将详细介绍阿里巴巴如何充分利用YARN的新特性来构建和完善其多功能分布式集群——云梯YARN集群。阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块既有MRv1,也有YA
2014-02-11 18:13:47 1492
转载 云梯的多NameNode和跨机房之路
摘要:在过去五年中,阿里云梯一直都采取需求驱动的发展模式。直到2013年4月,这种模式再也无法继续下去:云梯集群所在的数据中心(IDC机房)的机位已满,无法继续扩充集群,此时,构建一个跨机房的Hadoop集群便刻不容缓。2013年4月,阿里云梯集群所在的数据中心(IDC机房)的机位已满,无法继续扩充集群。根据当时阿里集团数据量的增长趋势,在可以预见的很短时间内,集群规模将因为机房机位不
2014-02-11 18:07:48 1186
转载 Spark Streaming:大规模流式数据处理的新贵
提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询(interactive query
2014-02-11 17:58:43 1238
转载 Quora上的一个哥们对mongodb由爱转恨
Some people who talk about leaving MongoDB:Anonymous: http://pastebin.com/raw.php?i=FD...Zopyx: http://www.zopyx.de/blog/goodbye...Bump: http://devblog.bu.mp/from-mongod...Urban Airship: htt
2014-02-11 13:06:06 2231
转载 Hadoop MapReduce Next Generation - Writing YARN Applications
The general concept is that an 'Application Submission Client' submits an 'Application' to the YARN Resource Manager. The client communicates with the ResourceManager using the 'ApplicationClientProto
2014-02-08 15:32:01 1025
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人