Mahout
RangerWolf
这个作者很懒,什么都没留下…
展开
-
[Mahout] Windows下Mahout单机安装
刚开始接触Mahout,在网上也看了一些人家的文章,但是感觉都比较复杂。下面我这种方式,在单机做一些简单的实验、作为初步对于mahout的了解估计是比较好的方法。 1. 到官网下载最新的版本:http://apache.fayea.com/apache-mirror/mahout/0.9/2. 下载之后解压3. Eclipse之中创建一个普通的java project 并将解...2014-07-06 10:41:15 · 523 阅读 · 0 评论 -
[Mahout] 第一个小实验:使用GroupLens进行推荐模型的检验
注: 内容参考至《Mahout实战》根据mahout实战里面的内容,接下来将使用grouplens提供的movielens-1m的数据进行推荐。在mahout自带的example之中,已经有了能读取dat文件的代码。其扩展至FileDataModel, 因此拿过来就能直接用了。但是由于考虑到机器性能的原因,我会丢弃掉部分数据,减小运算的数据量~ 改造主要就是在参数之中增加了一个r...2014-07-06 15:29:24 · 264 阅读 · 0 评论 -
[Mahout] Windows + Eclipse 构建mahout运行环境
mahout的完整运行还是需要hadoop的支持的,不过很多算法只需要能把hadoop的jar包加入到classpath之中就能正常运行。比如我们在使用LogisticModelParameters的时候,会引用包import org.apache.hadoop.io.Writable; 按照之前的文章,仅仅将mahout的包加入到classpath之中,就会提示找不到hadoop...2014-07-11 12:50:38 · 281 阅读 · 0 评论 -
[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression
在mahout的官网上面,有讲诉如何在命令行之中使用Logistic Regression对自带的donut.csv进行训练的例子。现在我们要做的,是自己在java代码之中对iris的数据使用LR进行分析。 首先,我们要熟悉一下,使用LR需要哪些参数以及他们的作用。我们从《mahout实战》上面给出的命令行例子来了解一下: $ bin/mahout trainlogisti...2014-07-11 14:17:28 · 377 阅读 · 0 评论 -
[Mahout] mahout 0.9 的 seqdirectory 有bug
具体请参考:http://mail-archives.apache.org/mod_mbox/mahout-user/201311.mbox/%3C1384299917.36018.YahooMailNeo@web163504.mail.gq1.yahoo.com%3E虽然官方已经关掉了,但是在我的环境(Ubuntu 14.04 + Hadoop 1.2.1) 依然出错官方bug链接:h...2014-07-13 15:29:05 · 200 阅读 · 0 评论 -
[Mahout] 为什么mahout需要sequencefile ?
《Apache Mahout Cook》 第二章的标题是: Using Sequence Files – When and Why ? 看了半天也没看懂需要sequence file的原因。其实是因为我对hadoop不了解。 sequence file 是hadoop底下特有的一种key/value文件格式,而不是mahout自己特有的。而mahout需要hadoop,所以就一定...2014-07-17 23:02:02 · 206 阅读 · 0 评论 -
[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes
通常,在网上找到的mahout的naive bayes的例子跟官网的例子,都是针对20 newsgroup. 而且通常是命令行版本。虽然能得出预测、分类结果,但是对于Bayes具体是如何工作,以及如何处理自己的数据会比较茫然。 在努力了差不多一个星期之后,终于有点成果。 这个例子就是使用mahout 0.9 对kddcup 1999 的数据进行分析。 第一步: 下载数据...2014-07-19 11:58:14 · 261 阅读 · 0 评论