2014年11月_不能飞的肥燕

12月 11月 10月 09月 08月 07月 06月 03月

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架（0.20.0 及之前版本）的同仁应该很熟悉如下的原 Ma

2014-11-24 15:15:25 669

转载 Java 8 简明教程

Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。本文由 ImportNew网站的黄小非翻译自 winterbe。原文作者Benjamin是Pondus软件公司的总工程师，原文内容如下。引用Java并没有没落，人们很快就会发现这一点

2014-11-18 18:20:12 505

转载 Spark，一种快速数据分析替代方案

虽然 Hadoop 在分布式数据分析方面备受关注，但是仍有一些替代产品提供了优于典型 Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台，它整合了内存计算的基元，因此，相对于 Hadoop 的集群存储方法，它在性能方面更具优势。Spark 是在 Scala 语言中实现的，并且利用了该语言，为数据处理提供了独一无二的环境。了解 Spark 的集群计算方法以及它与 Hado

2014-11-18 12:02:26 986

转载 Spark与Hadoop计算模型的比较分析

最近很多人都在讨论Spark这个貌似通用的分布式计算模型，国内很多机器学习相关工作者都在研究和使用它。　　Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。　　那么Spark和Hadoop有什么不同呢?　　1.Spark的中间数据放到内存中，对于迭代运算效率比较高。　　Spark aims to extend MapReduce for

2014-11-18 10:56:33 534

转载 Impala：新一代开源大数据分析引擎

Impala架构分析Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快

2014-11-06 12:18:21 658

转载 Hadoop家族学习路线图

目录(?)[-]Hadoop家族产品Hadoop家族学习路线图主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flum

2014-11-05 15:51:45 523