- 博客(11)
- 资源 (9)
- 收藏
- 关注
原创 Spark:Scala实现KMeans算法
1 什么是KMeans算法K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。具体来说,通过输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准的k个聚类。2 k-means 算法基本步骤(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2) 根据每个聚类对象的
2015-03-25 09:15:35 6431
转载 Spark:利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。(1) 准备工作在正式介绍之前,先要以下软硬件准备:软件准备:Eclipse Juno版本(4.2版本),可以直
2015-03-19 18:46:45 625
原创 Apache Spark:将Apache Spark部署到Hadoop 2.2.0上
本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能
2015-03-18 17:00:35 937
原创 Hadoop、MapReduce、YARN和Spark的区别与联系
(1) Hadoop 1.0第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。(2) Hadoop 2.0第二代Hadoop,为克服Had
2015-03-17 16:37:54 11373 2
转载 浅谈Borg/YARN/Mesos/Torca/Corona一类系统
Borg(来自Google),YARN(来自Apache,属于Hadoop下面的一个分支,开源),Mesos(来自Twitter,开源),Torca(来自腾讯搜搜),Corona(来自Facebook,开源)一类系统被称为资源统一管理系统或者资源统一调度系统,它们是大数据时代的必然产物。概括起来,这类系统设计动机是解决以下两类问题:(1) 提高集群资源利用率在大数据时代,为
2015-03-17 15:27:23 955
转载 如何编写YARN应用程序
(注意:本文的分析基于Hadoop trunk上的“Revision 1452188”版本,具体可参考:http://svn.apache.org/repos/asf/hadoop/common/branches/branch-2/。)1. 概述YARN是一个资源管理系统,负责集群资源的管理和分配。如果想要将一个新的应用程序运行在YARN之上,通常需要编写两个组
2015-03-17 15:20:21 673
转载 Hadoop版本选择探讨
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hado
2015-03-17 15:11:54 490
转载 相比于MRv1,YARN带来的优势是什么?
最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200
2015-03-17 15:08:43 1488
转载 下一代Apache Hadoop MapReduce框架的架构
背景随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修。需求当我们对Hadoop MapReduce框架进行改进时,需要时刻谨记的一个重要原则是用户的需求。近几年来,从Hadoop用户那里总结出MapReduce框架当前最紧迫的需求有:(1)可靠性(Rel
2015-03-17 14:56:23 615
原创 Spark下如何运行Java版本的WordCount
最近研究了下spark,因为scala还不熟,所以先学习了java的spark程序写法,下面是我的简单测试程序的代码,大部分函数的用法已在注释里面注明。这里需要用到一个jar文件:spark-assembly-1.0.0-hadoop1.0.4.jarWordCount代码如下: 手动编译运行过程: 导出类文件生成jar包,这里生成为JavaWordCoun
2015-03-15 21:36:32 4039
原创 hadoop1.0.2+spark1.0.2伪分布式安装总结
Ubuntu12.04+hadoop1.0.2+spark1.0.2伪分布式安装总结由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop;并且在Linux系统中安装Spark还需要预先安装JDK,Scala等所需依赖。软件版本:ubunt12.04+JDK1.6+hadoop1.0.2+scala2.9.3+spark1.0.21 Hadoop1
2015-03-15 16:24:07 832
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人