hadoop
hellocdw
这个作者很懒,什么都没留下…
展开
-
mahout 安装
软件准备:hadoop-0.20.2,mahout-0.4,ubuntu 11.10,jdk1.6 mahout的版本0.4只对hadoop-0.20.2版本兼容 如果fs版本为hadoop0.20.2 请下载mahout0.4版本 mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂,这里不再讲述。这里默认had转载 2013-03-09 16:27:39 · 541 阅读 · 0 评论 -
Mahout推荐算法基础
Mahout主要推荐算法 Mahout推荐算法分为以下几大类GenericUserBasedRecommender 算法:1.基于用户的相似度2.相近的用户定义与数量特点:1.易于理解2.用户数较少时计算速度快 GenericItemBasedRecommender 算法:1.基于item的相似度特点:1.item较少时就算速度更快2转载 2013-04-01 18:49:56 · 940 阅读 · 0 评论 -
Canopy算法原理
Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是:从一个点集合开始并且随机删除一个,创建一个包含这个点的Canopy,并在剩余的点集合上迭代。对于每个点,如果它与这个Canopy的距离小于T1,那么就将这个点就加入这个Canopy中。除此之外,如果这个距离原创 2013-09-17 10:53:56 · 1230 阅读 · 0 评论 -
Hadoop上控制Map的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导转载 2013-10-16 08:45:19 · 364 阅读 · 0 评论