所用技术:
Bootstrap、flat-ui 、 Servlet、Spark1.4.1、Hadoop2.6.0、JDK
说明:本系统不涉及ssh相关内容,只有简单的Servlet和JSP、HTML页面,系统架构相对简单。
系统部署:
1. 拷贝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目录;
(spark-assembly-1.4.1-hadoop2.6.0.jar文件由原生spark-assembly-1.4.1-hadoop2.6.0.jar删除javax/servlet包获得,由于太大,所以就没有上传了);
2. 拷贝原生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS(目录和代码中一致);
3. 拷贝WebContent/WEB-INF/lib目录中的Spark141-als.jar到HDFS(目录和代码中保持一致);
4. 拷贝Hadoop集群(调用所使用的集群,每个人不一样)配置文件yarn-site.xml到HDFS(目录和代码中保持一致);
(spark-assembly-1.4.1-hadoop2.6.0.jar文件由原生spark-assembly-1.4.1-hadoop2.6.0.jar删除javax/servlet包获得,由于太大,所以就没有上传了);
2. 拷贝原生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS(目录和代码中一致);
3. 拷贝WebContent/WEB-INF/lib目录中的Spark141-als.jar到HDFS(目录和代码中保持一致);
4. 拷贝Hadoop集群(调用所使用的集群,每个人不一样)配置文件yarn-site.xml到HDFS(目录和代码中保持一致);
5. 修改相关配置文件,由于hadoop相关配置、系统的一些属性需要修改为实际的配置及属性,所以针对这些需要进行修改(后面版本中会对此单独一个配置文件),例如:
或
系统使用数据为movielens上面的数据,下载地址为:http://grouplens.org/datasets/movielens/ ,本测试使用的数据是:
可以根据自己集群的实际情况选择下载数据集的大小。
代码下载地址:https://github.com/fansy1990/movie_recommend ;
系统界面及相关功能实现
1. 系统首页
系统首页如下图所示:
首页直接使用bootstrap的tab界面,分为三栏,分别对应:首页介绍、算法调用和推荐;
2. 初始化后台任务
在启动tomcat的时候,后台会打印相关日志:
信息: Starting Servlet Engine: Apache Tomcat/7.0.52
initial begin...
2016-08-23 12:33:28,189 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2016-08-23 12:33:29,836 INFO [util.Utils] - Movies data size:3883
2016-08-23 12:33:33,638 INFO [util.Utils] - Users data size:6040
initial end!
八月 23, 2016 12:33:33 下午 org.apache.coyote.AbstractProtocol start
这里是初始化的相关打印,初始化使用InitServlet,在里面调用了Utils的init方法,init方法主要初始化了movies变量和userWithRatedMovies变量和allMovieIds变量,各个变量表示意思如下:
- movies:所有的电影ID和电影所有相关信息的Map映射;
- userWithRatedMovies:用户ID和当前用户所有评分过的电影ID集合的Map映射;
- allMovieIds:所有电影ID的Set集合;
3. 建模前台与后台功能实现
建模界面如下所示:
用户输入或选择对应的参数,即可点击“建模”,提交Spark ALS任务到YARN(Hadoop集群),进行算法调用。
建模流程:
- 用户输入相关算法参数后,点击建模;
- 后台RunALS Servlet获取提交的算法参数,封装Spark ALS算法,然后提交给YARN;
- YARN在分配了相关资源后,会返回一个任务ID:applicationID,这时启动一个线程,专门获取该applicationId的任务进度,更新全局allAppStatus变量(Map变量<applicationId,任务状态>),后台返回前台此applicationId; <