2015年03月_ldcaws

12月 07月 06月 03月

原创 Spark：Scala实现KMeans算法

1 什么是KMeans算法K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。具体来说，通过输入聚类个数k，以及包含 n个数据对象的数据库，输出满足方差最小标准的k个聚类。2 k-means 算法基本步骤（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；（2）根据每个聚类对象的

2015-03-25 09:15:35 6431

转载 Spark：利用Eclipse构建Spark集成开发环境

前一篇文章“Apache Spark学习：将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包，而本文则在此基础上，介绍如何利用Eclipse构建Spark集成开发环境。（1）准备工作在正式介绍之前，先要以下软硬件准备：软件准备：Eclipse Juno版本（4.2版本），可以直

2015-03-19 18:46:45 625

原创 Apache Spark：将Apache Spark部署到Hadoop 2.2.0上

本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上，如果你们的Hadoop是其他版本，比如CDH4，可直接参考官方说明操作。需要注意两点：（1）使用的Hadoop必须是2.0系列，比如0.23.x，2.0.x，2.x.x或CDH4、CDH5等，将Spark运行在Hadoop上，本质上是将Spark运行在Hadoop YARN上，因为Spark自身只提供了作业管理功能

2015-03-18 17:00:35 937

原创 Hadoop、MapReduce、YARN和Spark的区别与联系

（1） Hadoop 1.0第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版本为Hadoop 1.x和0.21.X，0.22.x。（2） Hadoop 2.0第二代Hadoop，为克服Had

2015-03-17 16:37:54 11373 2

转载浅谈Borg/YARN/Mesos/Torca/Corona一类系统

Borg（来自Google），YARN（来自Apache，属于Hadoop下面的一个分支，开源），Mesos（来自Twitter，开源），Torca（来自腾讯搜搜），Corona（来自Facebook，开源）一类系统被称为资源统一管理系统或者资源统一调度系统，它们是大数据时代的必然产物。概括起来，这类系统设计动机是解决以下两类问题：（1）提高集群资源利用率在大数据时代，为

2015-03-17 15:27:23 955

转载如何编写YARN应用程序

（注意：本文的分析基于Hadoop trunk上的“Revision 1452188”版本，具体可参考：http://svn.apache.org/repos/asf/hadoop/common/branches/branch-2/。）1. 概述YARN是一个资源管理系统，负责集群资源的管理和分配。如果想要将一个新的应用程序运行在YARN之上，通常需要编写两个组

2015-03-17 15:20:21 673

转载 Hadoop版本选择探讨

由于Hadoop版本混乱多变，因此，Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程，并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前（2012年12月23日），Apache Hadoop版本分为两代，我们将第一代Hado

2015-03-17 15:11:54 490

转载相比于MRv1，YARN带来的优势是什么？

最近一段时间，经常看到有人在微博上说，“很多公司暂时用不到YARN，因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台，甚至将来几万台”。这完全是一种错误的观念，在Hadoop高速发展的时代，必须更正。实际上，上述观念只看到了YARN的扩展性（Scalability），扩展性是可用可不用的特性，中小型公司将YARN部署到小集群（按照IBM观点，集群规模小于200

2015-03-17 15:08:43 1488

转载下一代Apache Hadoop MapReduce框架的架构

背景随着集群规模和负载增加，MapReduce JobTracker在内存消耗，线程模型和扩展性/可靠性/性能方面暴露出了缺点，为此需要对它进行大整修。需求当我们对Hadoop MapReduce框架进行改进时，需要时刻谨记的一个重要原则是用户的需求。近几年来，从Hadoop用户那里总结出MapReduce框架当前最紧迫的需求有：（1）可靠性（Rel

2015-03-17 14:56:23 615

原创 Spark下如何运行Java版本的WordCount

最近研究了下spark，因为scala还不熟，所以先学习了java的spark程序写法，下面是我的简单测试程序的代码，大部分函数的用法已在注释里面注明。这里需要用到一个jar文件：spark-assembly-1.0.0-hadoop1.0.4.jarWordCount代码如下：手动编译运行过程：导出类文件生成jar包，这里生成为JavaWordCoun

2015-03-15 21:36:32 4039

原创 hadoop1.0.2+spark1.0.2伪分布式安装总结

Ubuntu12.04+hadoop1.0.2+spark1.0.2伪分布式安装总结由于Spark主要使用HDFS充当持久化层，所以完整地使用Spark需要预先安装Hadoop；并且在Linux系统中安装Spark还需要预先安装JDK，Scala等所需依赖。软件版本：ubunt12.04+JDK1.6+hadoop1.0.2+scala2.9.3+spark1.0.21 Hadoop1

2015-03-15 16:24:07 832