自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ldcaws的专栏

我不去想是否能够成功,既然选择了远方便只顾风雨兼程!

  • 博客(11)
  • 资源 (9)
  • 收藏
  • 关注

原创 Spark:Scala实现KMeans算法

1 什么是KMeans算法K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。具体来说,通过输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准的k个聚类。2 k-means 算法基本步骤(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2) 根据每个聚类对象的

2015-03-25 09:15:35 6431

转载 Spark:利用Eclipse构建Spark集成开发环境

前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。(1) 准备工作在正式介绍之前,先要以下软硬件准备:软件准备:Eclipse Juno版本(4.2版本),可以直

2015-03-19 18:46:45 625

原创 Apache Spark:将Apache Spark部署到Hadoop 2.2.0上

本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能

2015-03-18 17:00:35 935

原创 Hadoop、MapReduce、YARN和Spark的区别与联系

(1) Hadoop 1.0第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。(2)  Hadoop 2.0第二代Hadoop,为克服Had

2015-03-17 16:37:54 11371 2

转载 浅谈Borg/YARN/Mesos/Torca/Corona一类系统

Borg(来自Google),YARN(来自Apache,属于Hadoop下面的一个分支,开源),Mesos(来自Twitter,开源),Torca(来自腾讯搜搜),Corona(来自Facebook,开源)一类系统被称为资源统一管理系统或者资源统一调度系统,它们是大数据时代的必然产物。概括起来,这类系统设计动机是解决以下两类问题:(1) 提高集群资源利用率在大数据时代,为

2015-03-17 15:27:23 955

转载 如何编写YARN应用程序

(注意:本文的分析基于Hadoop trunk上的“Revision 1452188”版本,具体可参考:http://svn.apache.org/repos/asf/hadoop/common/branches/branch-2/。)1.     概述YARN是一个资源管理系统,负责集群资源的管理和分配。如果想要将一个新的应用程序运行在YARN之上,通常需要编写两个组

2015-03-17 15:20:21 673

转载 Hadoop版本选择探讨

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1  Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hado

2015-03-17 15:11:54 490

转载 相比于MRv1,YARN带来的优势是什么?

最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200

2015-03-17 15:08:43 1488

转载 下一代Apache Hadoop MapReduce框架的架构

背景随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修。需求当我们对Hadoop MapReduce框架进行改进时,需要时刻谨记的一个重要原则是用户的需求。近几年来,从Hadoop用户那里总结出MapReduce框架当前最紧迫的需求有:(1)可靠性(Rel

2015-03-17 14:56:23 615

原创 Spark下如何运行Java版本的WordCount

最近研究了下spark,因为scala还不熟,所以先学习了java的spark程序写法,下面是我的简单测试程序的代码,大部分函数的用法已在注释里面注明。这里需要用到一个jar文件:spark-assembly-1.0.0-hadoop1.0.4.jarWordCount代码如下: 手动编译运行过程: 导出类文件生成jar包,这里生成为JavaWordCoun

2015-03-15 21:36:32 4039

原创 hadoop1.0.2+spark1.0.2伪分布式安装总结

Ubuntu12.04+hadoop1.0.2+spark1.0.2伪分布式安装总结由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop;并且在Linux系统中安装Spark还需要预先安装JDK,Scala等所需依赖。软件版本:ubunt12.04+JDK1.6+hadoop1.0.2+scala2.9.3+spark1.0.21 Hadoop1

2015-03-15 16:24:07 832

UCI数据集(数据挖掘)

很全的uci数据集,格式为arff,希望有用

2014-11-14

mahout源代码

很全很新的mahout源代码 希望对大家有用

2014-11-14

weka源代码

Weka是一款流行的开源数据挖掘软件,其中的源码是初学者学习数据挖掘算法最好资料

2014-11-11

wine数据集

数据聚类测试数据集,wine数据集很全,可以马上使用的。。

2014-08-15

iris数据集

聚类分析用的数据集;iris数据集;很全,马上可以使用。。

2014-08-15

300种加密解密算法(C++)源代码

300种加密解密算法(C++)源代码 C++ 加解密 算法

2014-07-10

C#文本加密解密算法示例源代码

C#文本加密解密算法示例源代码 很全的源代码 C# 加密 文本加密算法

2014-07-10

K_means聚类算法研究综述

K means聚类算法研究综述 详细介绍了K means聚类算法

2014-07-05

基于Oracle和ArcSDE的空间数据访问优化

基于Oracle和ArcSDE的空间数据访问优化..

2014-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除