![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
mahout
文章平均质量分 54
java的一天
http://bbs.csdn.net/user/resource_point_transfer
展开
-
调试mahout使用到的maven插件下载地址
调试mahout使用到的maven插件下载地址:http://central.maven.org/maven2/org/apache/maven/plugins手动下载相应jar,放入maven仓库即可原创 2013-12-31 11:09:31 · 693 阅读 · 0 评论 -
mahout基于hadoop的推荐引擎代码分析
mahout的taste框架是协同过滤算法的实现。它支持DataModel,如文件、数据库、NoSQL存储等,也支持hadoop的MapReduce。这里主要分析的基于MR的实现。基于MR的CF实现主要流程就在org.apache.mahout.cf.taste.hadoop.item.RecommenderJob类中(注意mahout有两个RecommendJob,要看清楚是转载 2014-01-03 10:15:46 · 1078 阅读 · 0 评论 -
基于 Apache Mahout 实现高效的协同过滤推荐
基于 Apache Mahout 实现高效的协同过滤推荐Apache Mahout 是 Apache Software Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。转载 2013-12-27 11:06:41 · 2676 阅读 · 0 评论 -
Mahout 入门构建一个推荐引擎
Mahout 入门Mahout 的入门相对比较简单。首先,您需要安装以下软件:JDK 1.6 或更高版本Ant 1.7 或更高版本如果要编译 Mahout 源代码,还需要安装 Maven 2.0.9 或 2.0.10您还需要本文的示例代码(见 下载部分),其中包括一个 Mahout 副本及其依赖关系。依照以下步骤安装示例代码:解压缩 sample转载 2013-12-27 11:23:29 · 863 阅读 · 0 评论 -
在windows xp下利用Eclipse构建Mahout
在windows xp下利用Eclipse构建Mahout1. Mahout构建的先决条件1) JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。2) Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。2. mahout源码获取与其他Apa转载 2013-12-27 15:43:33 · 706 阅读 · 0 评论 -
Eclipse集成maven插件m2eclips
Eclipse之maven插件m2eclips 前言 本文使用的不是在线方式安装 Maven 插件,用的是 link 方式。之所以使用 link 方式,是为了可以方便对 Eclipse 插件的管理,不至于一大堆东西都放在 plugins 目录下。 作者的 eclipse 版本是 Helios Release,Eclipse Java转载 2013-12-27 16:23:46 · 735 阅读 · 0 评论 -
Mahout入门安装
Mahout安装与配置Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubunt转载 2013-12-25 18:06:05 · 669 阅读 · 0 评论 -
mahout+Eclipse,使用 Taste 构建推荐引擎实例 – 电影推荐引擎
使用 Taste 构建推荐引擎实例 – 电影推荐引擎根据上面的步骤,我们可以得到一个简单的推荐引擎 demo 环境,下面介绍如何使用 Taste 方便地构建自定义的推荐引擎。抽取 Taste 工具包直接使用 Mahout 的项目环境进行编码,需要使用 Ant 或者 Maven 进行编译,整个过程比较复杂,这里我们将构建推荐引擎所需要的工具包从 Mahout 工程中抽取出来,转载 2013-12-27 11:41:16 · 2178 阅读 · 0 评论 -
mahout总结
数据过滤:当我们得到了每天产生的数据后,说实在这些数据实在是太多了,我们当然用不到这么多,就要写个过滤模块,把一些我们用不到的数据过滤掉。我一般是这样做的:写个python的脚本,把过滤器放到一个单独的模块,要用的过滤器就到责任链里面注册下。这样别人和自己维护起来也方便点,顺便一说,过滤的东西一般来说有这样几种:一种是一个item只有一个user打过分的,而且以前没有人打分的,这样转载 2014-01-22 09:35:08 · 1233 阅读 · 0 评论 -
mahout中Taste提交job的流程:
Taste提交job的流程: 1. 获得job处理所需要的样本信息;推荐引擎定义的有几种文件格式,有从数据库读取,有从文件系统里读取,我觉得从文件系统里最方便,可能是我现在使用Hadoop的缘故吧。不同的数据来源会由不同的DataModel来进行数据读取。例如文件系统的是FileDataModel,文件系统内的文件格式是 userID ItemID value,中间通过”\t”转载 2014-01-03 12:01:34 · 866 阅读 · 0 评论 -
Mahout:Canopy Clustering的Map-Reduce实现
Canopy Clustering的Map-Reduce实现 Canopy Clustering的实现包含单机版和MR两个版本,单机版就不多说了,MR版用了两个map操作和一个reduce操作,当然是通过两个不同的job实现的,map和reduce阶段执行顺序是:CanopyMapper –> CanopyReducer –> ClusterMapper,我想对照下面这幅图来理解转载 2014-01-03 09:34:42 · 1343 阅读 · 0 评论 -
Mahout源码目录说明
Mahout源码目录说明mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/util转载 2014-01-03 08:26:12 · 620 阅读 · 0 评论 -
Mahout笔记--代码分析2
一, Introductionpackage mia.recommender.ch02;//=分析导入包可以看出mahout的包分为主要类以及它们的实现类=import org.apache.mahout.cf.taste.impl.model.file.*;import org.apache.mahout.cf.taste.impl.neighborhood.*;import转载 2014-01-02 09:28:18 · 776 阅读 · 0 评论 -
Mahout in action 中文版-6.分布式推荐计算
6 分布式推荐计算本章概述:分析维基百科上的一个大数据集利用Hadoop和分布式计算产生推荐结果伪分布式上存在的非分布式推荐本书着眼于持续增长的数据集,从10条到100,000再到1千万再到1.7千万。不过这依然是中等大小的推荐系统所处理的数据。本章依然放手一搏,处理了来自维基百科语料库中的1.3亿条数据,这些数据主要是以文章对文章的连接形式存在的。在这些数转载 2014-01-02 10:09:51 · 1111 阅读 · 0 评论 -
Mahout推荐算法API详解
目录Mahout推荐算法介绍算法评判标准:召回率与准确率Recommender.java的API接口测试程序:RecommenderTest.java基于用户的协同过滤算法UserCF基于物品的协同过滤算法ItemCFSlopeOne算法KNN Linear interpolation item–based推荐算法SVD推荐算法Tree Cluste转载 2014-01-02 10:19:54 · 746 阅读 · 0 评论 -
Mahout in action 中文版-2.推荐器的介绍-2.3~2.6
2.3 评估推荐器 推荐器是一个工具,它用来解决“如何为一个用户给出最好的推荐”这样的问题。在得出结果之前,最好先弄清楚问题。究竟怎样才是一个好的推荐结果?我们如何才能得出这样的结果?这一章剩下的部分将停下来探索推荐器的评估,因为这是用来了解特定推荐器的有力工具。 最理想的推荐器会像巫师一样某明奇妙的猜到你所喜欢的东西。它可能会知道你有多喜欢一个东西转载 2014-01-02 10:05:21 · 747 阅读 · 0 评论 -
Mahout分步式程序开发 基于物品的协同过滤ItemCF
目录Mahout开发环境介绍Mahout基于Hadoop的分步环境介绍用Mahout实现协同过滤ItemCF模板项目上传github1. Mahout开发环境介绍在 用Maven构建Mahout项目 文章中,我们已经配置好了基于Maven的Mahout的开发环境,我们将继续完成Mahout的分步式的程序开发。本文的mahout版本为0.8。开发环转载 2014-01-02 16:03:20 · 978 阅读 · 0 评论 -
Mahout笔记--代码分析
推荐系统介绍——Mahout笔记之一七月 2nd, 2012 · diaorui · 推荐系统 No comments- Tags: Mahout, Mahout in action0准备开始看Mahout in action~Mahout是Java写的知名推荐系统工具之一,看的目的不是使用Mahout,目的是通过这份资料了解Ma转载 2014-01-02 09:17:22 · 1242 阅读 · 0 评论 -
Mahout in action 中文版-2.推荐器的介绍-2.1~2.2
2 推荐器的介绍本章概要: Mahout中的推荐器 推荐器实战一瞥 推荐引擎精度与质量评估 基于一个真实数据集的测试:GroupLens 每天我们都会对一些喜欢的、不喜欢的甚至不关心的事物进行一些评价。这中行为往往是无意识的。你在收音机上听到一首歌,你可能会因为它的美妙或者难听而转载 2014-01-02 10:03:33 · 735 阅读 · 0 评论 -
Mahout in action 中文版-3.推荐器的数据表达
3推荐器的数据表达本章概要:Mahout的推荐数据如何呈现DataModel 的实现和使用布尔型的偏好数据处理推荐结果的好坏取决于数据的数量和质量。“巧妇难为无米之炊”用在这里再合适不过了。数据质量高本身是好事,而且数据量大也是好事。推荐算法天生就是数据密集型的,它们擅长处理大数据。算法运行的性能和数据的质量和呈现形式直接相关。一个好的数据结构可以影转载 2014-01-02 10:07:54 · 1059 阅读 · 0 评论 -
mahout将文本数据转化成向量形式
对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceFile文件是一种二制制存储的key-value键值对,对应的源文件是org.apache.mah转载 2014-01-17 17:54:44 · 1308 阅读 · 0 评论