![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Mahout
文章平均质量分 83
Gandalf_lee
互联网大厂从事数据挖掘,机器学习相关技术工作。
展开
-
【甘道夫】通过Mahout构建推荐系统--通过IDRescorer扩展评分规则
通过Mahout构建推荐系统时,如果我们需要加入某些过滤规则(比如:item的创建时间在一年以内),则需要用到IDRescorer接口,该接口源码如下: package org.apache.mahout.cf.taste.recommender; /** * * A {@link Rescorer} which operates on {@code long原创 2014-05-09 09:53:58 · 1333 阅读 · 0 评论 -
【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解
背景&目标: 1、sport.tar 是体育类的文章,一共有10个类别; 用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果; 记录分类器的构造过程和测试结果。 2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户; 利用上题构造的文本分类器,计算每个用户浏览各类文章的占比; 记录计算过程和结果。原创 2014-05-09 10:12:48 · 4558 阅读 · 14 评论 -
【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用
并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用原创 2014-06-17 18:52:03 · 1995 阅读 · 0 评论 -
【甘道夫】用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0
引言 接前一篇文章《【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》 http://blog.csdn.net/u010967382/article/details/39088035, 为Mahout0.9打过Patch编译成功后,使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性。 步原创 2014-09-05 23:31:01 · 1640 阅读 · 0 评论 -
【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0
引言 Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout支持Hadoop2了。 欢迎转载,请注明出处: 造好的车轮 让Mahout在Hadoop2.2.0上运行是需求十分广泛的,所以必定有前人已经栽好树了,我们可以在原创 2014-09-05 23:26:12 · 2817 阅读 · 6 评论 -
【甘道夫】Mahout推荐算法编程实践
引言 Taste是曾经风靡一时的推荐算法框架,后来被并入Mahout中,Mahout的部分推荐算法基于Taste实现。 下文介绍基于Taste实现最常用的UserCF和ItemCF。 本文不涉及UserCF和ItemCF算法的介绍,这方面网上资料很多,本文仅介绍如何基于Mahout编程实现。 欢迎转载,请注明来源: 步骤一:构建数据模型原创 2014-09-10 17:27:09 · 3375 阅读 · 1 评论 -
【甘道夫】Win7+Eclipse+Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行
引言 之前成功在服务器上为Mahout0.9打patch,使其支持Hadoop2.2.0。 今天的需求是:在Win7+Eclipse+Maven环境下开发Mahout程序,打jar包放到集群上,使其在Hadoop2.2.0下正常运行。 过程 步骤一:Eclipse下创建Maven工程 pom.xml: 1.引入mahout依赖 depe原创 2014-09-11 17:54:20 · 2771 阅读 · 2 评论 -
【甘道夫】如何在cdh5.2上运行mahout的itemcf on hadoop
环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 步骤: 基本思路是,将mahout下的所有jar包都引入hadoop的classpath即可,所以修改了$HADOOP_HOME/etc/hadoop/hadoop-env.sh,添加如下代码将mahout的所有jar包引入hadoop的classpath: f原创 2014-10-23 18:42:37 · 3194 阅读 · 0 评论 -
【甘道夫】基于Mahout0.9+CDH5.2运行分布式ItemCF推荐算法
环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 引言 虽然Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark,但是实际面临的情况是公司集群没有足够的内存支持Spark这只把内存当饭吃的猛兽,再加上项目进度的压力以及开发人员的技能现状,所以不得不继续使用Mahout一段时间。 今天记录原创 2014-10-24 15:32:30 · 2752 阅读 · 1 评论