Hadoop家族
wbj0110
这个作者很懒,什么都没留下…
展开
-
RHadoop实践系列之三 R实现MapReduce的协同过滤算法
第三篇 R实现MapReduce的协同过滤算法,分为3个章节。 1.基于物品推荐的协同过滤算法介绍 2.R本地程序实现 3.R基于Hadoop分步式程序实现 每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代码的连贯性。 注:Hadoop环境及RHadoop的环境,请查看同系列前二篇文章,此文将不再介绍。 1. 基于物品推荐的协同过滤算法介绍 文字说明部分: ...原创 2014-05-19 17:09:54 · 241 阅读 · 0 评论 -
用Maven构建Hadoop项目
前言 Hadoop的MapReduce环境是一个复杂的编程环境,所以我们要尽可能地简化构建MapReduce项目的过程。Maven是一个很不错的自动化项目构建工具,通过Maven来帮助我们从复杂的环境配置中解脱出来,从而标准化开发过程。所以,写MapReduce之前,让我们先花点时间把刀磨快!!当然,除了Maven还有其他的选择Gradle(推荐), Ivy…. 后面将会有介绍几篇M...原创 2014-05-20 16:15:51 · 86 阅读 · 0 评论 -
用Maven构建Mahout项目
前言 基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。所以,新手想玩起Hadoop真不是件简单的事。 不过,我们可以尽可能的简化环境问题,让程序员只关注于写程序。特别是像算法...原创 2014-05-20 16:39:42 · 132 阅读 · 0 评论 -
用R解析Mahout用户推荐协同过滤算法(UserCF)
前言用R全面解析Mahout的基于用户推荐协同过滤算法(UserCF),改进的采用欧氏距离,并用R语言实现,与Mahout的结果进行对比。 Mahout是Hahoop家族用于机器学习的一个框架,包括三个主要部分,推荐,聚类,分类!我在这里做的是推荐部分。推荐系统在现在的互联网应用中很常见,比如,亚马逊会推荐你买书,豆瓣会给你一个书评,影评。 由于时间仓促,欢迎大家一起讨论。 目录 M...原创 2014-05-20 16:39:59 · 224 阅读 · 0 评论 -
Mahout分步式程序开发 基于物品的协同过滤ItemCF
前言 Mahout是Hadoop家族一员,从血缘就继承了Hadoop程序的特点,支持HDFS访问和MapReduce分步式算法。随着Mahout的发展,从0.7版本开始,Mahout做了重大的升级。移除了部分算法的单机内存计算,只支持基于Hadoop的MapReduce平行计算。 从这点上,我们能看出Mahout走向大数据,坚持并行化的决心!相信在Hadoop的大框架下,Mahout最终能...原创 2014-05-20 16:40:30 · 110 阅读 · 0 评论 -
Mahout分步式程序开发 聚类Kmeans(转)
前言 Mahout是基于Hadoop用于机器学习的程序开发框架,Mahout封装了3大类的机器学习算法,其中包括聚类算法。kmeans是我们经常会提到用到的聚类算法之一,特别处理未知数据集的时,都会先聚类一下,看看数据集会有一些什么样的规则。 本文主要讲解,基于Mahout程序开发,实现分步式的kmeans算法。 目录 聚类算法kmeans Mahout开发环境介绍 用Mahou...原创 2014-05-20 16:40:54 · 120 阅读 · 0 评论 -
Hadoop编程调用HDFS
前言 HDFS 全称Hadoop分步文件系统(Hadoop Distributed File System),是Hadoop的核心部分之一。要实现MapReduce的分步式算法时,数据必需提前放在HDFS上。因此,对于HDFS的操作就变得非常重要。Hadoop的命令行,提供了一套完整命令接口,就像Linux命令一样方便使用。 不过,有时候我们还需要在程序中直接访问HDFS,我们可以通过AP...原创 2014-05-21 10:23:31 · 98 阅读 · 0 评论 -
Hadoop家族学习路线图(转)
前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备。 本文为“Hadoop家族...原创 2014-04-14 09:29:36 · 120 阅读 · 0 评论