开发环境
- win10 64位
- eclipse-java-2019-06-R-win32-x86_64
- apache-maven-3.6.1
- mahout-0.6
- jdk-12.0.1
一,环境配置
JDK下载链接
下载成功后,如果选择exe文件直接安装,然后添加环境变量:
添加系统变量中变量名:JAVA_HOME 和变量值:此处是自己安装jdk的路径
添加路径:
编辑Path路径,添加jdk的bin目录
测试java环境是否安装成功:
打开cmd,输入java -version 和javac-version,显示版本号就ok!
Eclipse下载
Maven下载
个人选择的是apache-maven-3.6.1-bin.zip版本
下载后解压,放在自己熟悉的目录
配置环境变量,类似java,path中添加Maven的bin目录
D:\Maven\bin
修改conf目录中settings.xml文件
<?xml version="1.0" encoding="UTF-8"?>
<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd">
<localRepository>D:\MavenProject\mahout\</localRepository>
<pluginGroups>
</pluginGroups>
<proxies>
</proxies>
<servers>
</servers>
<dependency>
</dependency>
<mirrors>
<mirror>
<id>aliyun</id>
<name>aliyun Maven</name>
<mirrorOf>*</mirrorOf>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
</mirror>
</mirrors>
<profiles>
</profiles>
<activeProfiles>
</activeProfiles>
</settings>
应用maven,选择窗口 --》首选项 --》Maven --》User Settings
二,创建Maven工程
点击 文件 --》新建–》项目 选择 Maven Project(我安装了汉化包,所以写的都是中文,英文自己对号入座)
点击 下一步,有个默认的Workspase location,可以自己更改
继续点击下一步,选择 maven-arcjetype-quickstart
点击下一步,填写Group Id 和Artifact Id,一般有都会有格式规矩,自己也可以按照自己的喜好写
点击完成,会有这样的目录
三,添加mahout依赖包,并完成推荐小demo
添加依赖来个简单粗暴的方式
点击pom.xml文件,添加如下:
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-core</artifactId>
<version>0.6</version>
</dependency>
Ctrl + s 保存,自动下载mahout依赖包
下面开始编写程序了
package cn.TJ.mahout_test;
import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.impl.common.LongPrimitiveIterator;
import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;
import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.EuclideanDistanceSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.Recommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import java.io.File;
import java.io.IOException;
import java.util.List;
class RecommenderIntro{
public static void main(String[] args) throws TasteException,IOException {
// 数据集路径
String file = "D://MavenData//data.csv";
/* 步骤一:构建数据模型
将数据加载到内存中,基于文件的model,通过文件形式来读入,且此类型所需要读入的数据的格式要求很低,
UserCF和ItemCF算法的输入数据是用户偏好,用户偏好数据可以有两种形式:
包含用户对目标评分的【用户ID,itemID,评分】
不包含评分的【用户ID,itemID】
*/
DataModel model = new FileDataModel(new File(file));
/* 步骤二:指定距离(相似度)计算方法
用户偏好数据包含评分
欧氏距离:EuclideanDistanceSimilarity
皮尔森距离:PearsonCorrelationSimilarity
余弦距离:UncenteredCosineSimilarity
用户偏好数据不包含评分
曼哈顿距离:CityBlockSimilarity
对数似然距离: LogLikelihoodSimilarity
*/
UserSimilarity similarity = new PearsonCorrelationSimilarity(model);
/*步骤三(仅UserCF需要):选择近邻算法
* NearestNUserNeighborhood
指定距离最近的N个用户作为邻居。
示例:UserNeighborhood unb = new NearestNUserNeighborhood(10, us, dm);
三个参数分别是: 邻居的个数,用户相似度,数据模型
ThresholdUserNeighborhood
指定距离最近的一定百分比的用户作为邻居。
示例:UserNeighborhood unb = new ThresholdUserNeighborhood(0.2, us, dm);
三个参数分别是: 阀值(取值范围0到1之间),用户相似度,数据模型
*/
UserNeighborhood neighborhood = new NearestNUserNeighborhood(2, similarity, model);
/*步骤四:创建推荐器
实施推荐算法的最后一步就是创建推荐引擎,Taste为UserCF和ItemCF算法,针对有用户评分和没用户评分的情况,分别提供了推荐器:
用户偏好数据包含评分
示例代码:
UserCF:Recommender re = new GenericUserBasedRecommender(dm, unb, us);
ItemCF:Recommender re = new GenericItemBasedRecommender(dm, is);
用户偏好数据不包含评分
示例代码:
UserCF:Recommender re = new GenericBooleanPrefUserBasedRecommender(dm, unb, us);
ItemCF:Recommender re = new GenericBooleanPrefItemBasedRecommender(dm, is);*/
Recommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity);
List<RecommendedItem> recommendatios = recommender.recommend(1, 1);
for (RecommendedItem recommendation:recommendatios) {
System.out.println(recommendation);
}
}
}
数据集格式和内容
1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5
3,107,5.0
4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0
5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0