Mahout初体验——配置+HelloWorld

最近在看机器学习方面的内容,不过一直在看理论方面未免略枯燥,正好发现了一个Apache下的开源项目——Mahout,是一个Java的机器学习算法库,遂看之。

Mahout的主页Apache Mahout,正如其主要介绍的,这是一个Scalable Machine Learning库,而且基于Map/Reduce,可运行在Hadoop集群上。事实上它提供的库就有两种,一种是单机版的,独立运行在PC上的,还有一个就是分布式版的,运行在Hadoop上(PS:话说Hadoop还是挺看好的)。


进入正题,简单看一下Mahout,运行环境是MyEclipse9+Maven3+Mahout 0.7,都是比较性的版本。直接用Maven管理,省得要一个个导jar包麻烦。

新建一个Maven项目,在pom.xml中加入Mahout的相关Dependency,具体如下:

    <dependency>
      <groupId>org.apache.mahout</groupId>
      <artifactId>mahout-core</artifactId>
      <version>0.7</version>
    </dependency>
这样Maven会自动搜索关联的jar包并下载到本地。


导入包后开始第一个Hello World程序,就是根据用户打分推荐产品,其实网上也有不少,具体代码如下

package Mahout_Pro1;

import java.io.File;
import java.util.List;

import org.apache.mahout.cf.taste.impl.model.file.*;
import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.Recommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;

public class Mahout {
	private Mahout() {
	}
	
	public static void main(String[] args) throws Exception
	{
		DataModel model=new FileDataModel(new File("D:\\Workspace\\MyEclipse\\Mahout_Pro1\\src\\main\\java\\data.csv"));
		UserSimilarity similarity =new PearsonCorrelationSimilarity(model);
		UserNeighborhood neighborhood =new NearestNUserNeighborhood(2,similarity,model);
		Recommender recommender= new GenericUserBasedRecommender(model,neighborhood,similarity);
		List<RecommendedItem> recommendations =recommender.recommend(1, 2);
		for(RecommendedItem recommendation :recommendations){
			System.out.println(recommendation);
		}
	}
}

至于 data.csv里的数据,就是模拟的用户打分数据,如下

1,101,5
1,102,3
1,103,2.5
2,101,2
2,102,2.5
2,103,5
2,104,2
3,101,2.5
3,104,4
3,105,4.5
3,107,5
4,101,5
4,103,3
4,104,4.5
4,106,4
5,101,4
5,102,3
5,103,2
5,104,4
5,105,3.5
5,106,4

这样运行后就可以得到结果:

RecommendedItem[item:104, value:4.257081]
RecommendedItem[item:106, value:4.0]

整个程序比较简单,用到的都是库里现成的函数实现了基于排名的推荐,另一类算法应该是基于用户的推荐,具体可以另外实现。


此外,在比较新的版本中可能会报一些比较奇怪的错误:

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.


这主要是因为SLF4J的库支持问题,去SLF4J官网上下个最新的SLF4J,导入slf4j-nop的包就行了。


发现Mahout还是不错的,看来还是要多学习学习。。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值