基于Spark推荐系统阅读3

最新推荐文章于 2024-07-18 06:29:40 发布

qq_28088259

最新推荐文章于 2024-07-18 06:29:40 发布

阅读量642

点赞数

分类专栏：大数据 Spark

大数据同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

Spark

10 篇文章 1 订阅

订阅专栏

电影推荐，设计为用户提供电影推荐，MovieLens数据集---用户描述、电影描述、评分记录三部分。

用户的静态信息描述了该用户的人口统计学信息，如表征该用户的性别和年龄等。

电影的静态信息则描述了该电影的内容，如表征该电影是喜剧、恐怖剧、爱情剧等；

用户的评分记录则是用户的行为信息，表示用户看完电影之后对该电影的量化指标，它是连接用户与电影的媒介。

在大型电影推荐网站中，推荐系统的设计往往是多种推荐引擎，包括基于电影内容的推荐、协同过滤推荐等，而面对海量数据，推荐引擎往往按照离线和在线计算两部分设计。

根据MovieLens数据集提供的数据类型，实现基于多种推荐引擎的混合推荐，分别是基于人口统计学的推荐、基于内容的推荐、基于SVD的推荐。

系统中较为核心的三大模块：数据仓库模块、推荐引擎组、结果处理模块。

1）高性能数据仓库的设计：Spark SQL+HDFS+Parquet文件类型相结合的方案-----满足大数据环境下推荐系统的查询分析要求。具体就是：将推荐系统所需数据以Parquet文件的形式，存储于HDFS中，查询时使用Spark SQL查询数据。

数据仓库中的数据包含三个层次：a 原始数据层----将数据集中的数据抽象再封装，例如原始日志中有XX.dat文件，原始数据层的任务就是将该文件解析后以Parquet文件的形式存储于HDFS中，同时抽象成数据仓库表，以Spark SQL为接口，供上层的各推荐引擎调用。

b 离线中间层----该层基于原始数据层，是各推荐引擎的离线部分产生的中间计算结果。这一层的计算仍然与具体推荐对象无关，因此可以先离线计算好，然后供上层在线计算部分使用。例如电影内容的推荐，电影之间的相似度计算结果就属于这一层，计算后将数据以Parquet文件的形式储存于数据仓库中，以表的形式供上层调用。

c 推荐结果层---该层是各推荐引擎基于中间层数据进行个性化推荐的结果数据，该层数据量较少，往往存储在内存中，在进行过滤、排序等操作后，作为最终的推荐结果。

2) 推荐引擎组：三个推荐引擎---基于人口统计学的推荐、基于内容的推荐、基于SVD的推荐【模块化设计】。用这3个推荐引擎的原因：基于人口统计学的推荐利用了用户描述文件，基于内容的推荐利用了电影描述文件，基于SVD的推荐则利用了用户评分文件。

每一种推荐引擎都包含两部分：离线计算部分和在线计算部分。离线计算部分处理原始数据，数据量和计算量均较大，耗时较长，一般采用分布式计算框架，如Spark等【例如计算用户之间的相似度，计算量很大，又不与具体的推荐目标相关，故可以先计算出来，以逻辑表的形式存入数据仓库中】。在线计算部分与具体的推荐目标相关，需要在离线计算的基础上，以最快的速度给出推荐结果。在线计算部分计算量不是很大，数据量也不多，甚至可以先将数据加载入内存，来提高推荐速度。在线计算的结果就是推荐引擎的输出。

实现两类基本的推荐：评分预测和Top-N推荐。

3）结果处理模块

加权型并行混合模型---每一个推荐引擎都有各自的输出，本模块就是将推荐引擎的输出以一定的规则统一起来。1.评分预测的结果处理。 2.Top-N的结果处理-----过滤、排名、推荐解释、结果生成。

基于Spark的设计。

系统采用了Scala语言，基于Spark是实现。对于每一个推荐引擎来说，Spark SQL作为数据仓库的接口，Spark编程模型中有很多算子，算子的计算都是基于RDD的。

基于Spark的推荐系统的实现。

MovieLens数据集。

主要用到以下3个文件：

1. users.dat 描绘用户信息 UserID::Gender::Age::Occupation::Zip-code 其中Occupation已经被数字字典化-----用户相关信息，构造基于人口统计学的推荐

2. movies.dat 该文件描绘了电影信息 MovieID::Title::Genres 电影ID::名称::风格------物品相关内容描述，构造基于内容的推荐

3. ratings.dat 该文件描绘了用户的打分记录，UserID::MovieID::Rating::Timestamp 最后一个是时间戳-----提供了用户行为信息，构造基于SVD的协同过滤推荐。

高性能数据仓库的实现。