基于Spark ALS在线推荐系统

最新推荐文章于 2024-08-20 21:17:50 发布

fansy1990

最新推荐文章于 2024-08-20 21:17:50 发布

阅读量1.7w

点赞数 12

分类专栏： spark hadoop 推荐系统 ALS

本文链接：https://blog.csdn.net/fansy1990/article/details/52289826

版权

本文介绍了基于Spark ALS实现的在线推荐系统。系统部署后，通过用户输入算法参数，后台利用Spark ALS建模并提交到YARN进行计算。在任务进行中，前端实时展示进度条反馈任务状态，直至推荐模型完成。最后，系统实现了推荐页面的前后台功能。

摘要由CSDN通过智能技术生成

所用技术：

Bootstrap、flat-ui 、 Servlet、Spark1.4.1、Hadoop2.6.0、JDK

说明：本系统不涉及ssh相关内容，只有简单的Servlet和JSP、HTML页面，系统架构相对简单。

系统部署：

1. 拷贝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目录；
（spark-assembly-1.4.1-hadoop2.6.0.jar文件由原生spark-assembly-1.4.1-hadoop2.6.0.jar删除javax/servlet包获得，由于太大，所以就没有上传了）；
2. 拷贝原生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS（目录和代码中一致）；
3. 拷贝WebContent/WEB-INF/lib目录中的Spark141-als.jar到HDFS（目录和代码中保持一致）；
4. 拷贝Hadoop集群（调用所使用的集群，每个人不一样）配置文件yarn-site.xml到HDFS（目录和代码中保持一致）；

5. 修改相关配置文件，由于hadoop相关配置、系统的一些属性需要修改为实际的配置及属性，所以针对这些需要进行修改（后面版本中会对此单独一个配置文件），例如：

或

系统使用数据为movielens上面的数据，下载地址为：http://grouplens.org/datasets/movielens/ ，本测试使用的数据是：

可以根据自己集群的实际情况选择下载数据集的大小。

代码下载地址：https://github.com/fansy1990/movie_recommend ；

系统界面及相关功能实现

1. 系统首页

系统首页如下图所示：

首页直接使用bootstrap的tab界面，分为三栏，分别对应：首页介绍、算法调用和推荐；

2. 初始化后台任务

在启动tomcat的时候，后台会打印相关日志：

信息: Starting Servlet Engine: Apache Tomcat/7.0.52
initial begin...
2016-08-23 12:33:28,189 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2016-08-23 12:33:29,836 INFO [util.Utils] - Movies data size:3883
2016-08-23 12:33:33,638 INFO [util.Utils] - Users data size:6040
initial end!
八月 23, 2016 12:33:33 下午 org.apache.coyote.AbstractProtocol start

这里是初始化的相关打印，初始化使用InitServlet，在里面调用了Utils的init方法，init方法主要初始化了movies变量和userWithRatedMovies变量和allMovieIds变量，各个变量表示意思如下：

movies：所有的电影ID和电影所有相关信息的Map映射；
userWithRatedMovies：用户ID和当前用户所有评分过的电影ID集合的Map映射；
allMovieIds：所有电影ID的Set集合；

这里看到初始化的电影有3883个，而用户数有6040个；

3. 建模前台与后台功能实现

建模界面如下所示：

用户输入或选择对应的参数，即可点击“建模”，提交Spark ALS任务到YARN（Hadoop集群），进行算法调用。

建模流程：

用户输入相关算法参数后，点击建模；
后台RunALS Servlet获取提交的算法参数，封装Spark ALS算法，然后提交给YARN；
YARN在分配了相关资源后，会返回一个任务ID：applicationID，这时启动一个线程，专门获取该applicationId的任务进度，更新全局allAppStatus变量（Map变量<applicationId,任务状态>），后台返回前台此applicationId；