最近在看机器学习方面的内容,不过一直在看理论方面未免略枯燥,正好发现了一个Apache下的开源项目——Mahout,是一个Java的机器学习算法库,遂看之。
Mahout的主页Apache Mahout,正如其主要介绍的,这是一个Scalable Machine Learning库,而且基于Map/Reduce,可运行在Hadoop集群上。事实上它提供的库就有两种,一种是单机版的,独立运行在PC上的,还有一个就是分布式版的,运行在Hadoop上(PS:话说Hadoop还是挺看好的)。
进入正题,简单看一下Mahout,运行环境是MyEclipse9+Maven3+Mahout 0.7,都是比较性的版本。直接用Maven管理,省得要一个个导jar包麻烦。
新建一个Maven项目,在pom.xml中加入Mahout的相关Dependency,具体如下:
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-core</artifactId>
<version>0.7</version>
</dependency>
这样Maven会自动搜索关联的jar包并下载到本地。
导入包后开始第一个Hello World程序,就是根据用户打分推荐产品,其实网上也有不少,具体代码如下
package Mahout_Pro1;
import java.io.File;
import java.util.List;
import org.apache.mahout.cf.taste.impl.model.file.*;
import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.Recommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;
public class Mahout {
private Mahout() {
}
public static void main(String[] args) throws Exception
{
DataModel model=new FileDataModel(new File("D:\\Workspace\\MyEclipse\\Mahout_Pro1\\src\\main\\java\\data.csv"));
UserSimilarity similarity =new PearsonCorrelationSimilarity(model);
UserNeighborhood neighborhood =new NearestNUserNeighborhood(2,similarity,model);
Recommender recommender= new GenericUserBasedRecommender(model,neighborhood,similarity);
List<RecommendedItem> recommendations =recommender.recommend(1, 2);
for(RecommendedItem recommendation :recommendations){
System.out.println(recommendation);
}
}
}
至于 data.csv里的数据,就是模拟的用户打分数据,如下
1,101,5
1,102,3
1,103,2.5
2,101,2
2,102,2.5
2,103,5
2,104,2
3,101,2.5
3,104,4
3,105,4.5
3,107,5
4,101,5
4,103,3
4,104,4.5
4,106,4
5,101,4
5,102,3
5,103,2
5,104,4
5,105,3.5
5,106,4
这样运行后就可以得到结果:
RecommendedItem[item:104, value:4.257081]
RecommendedItem[item:106, value:4.0]
整个程序比较简单,用到的都是库里现成的函数实现了基于排名的推荐,另一类算法应该是基于用户的推荐,具体可以另外实现。
此外,在比较新的版本中可能会报一些比较奇怪的错误:
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
这主要是因为SLF4J的库支持问题,去SLF4J官网上下个最新的SLF4J,导入slf4j-nop的包就行了。
发现Mahout还是不错的,看来还是要多学习学习。。。。