基于Spark集群的电影分享社交平台的设计与实现

最新推荐文章于 2024-08-13 18:29:56 发布

QQ2743785109

最新推荐文章于 2024-08-13 18:29:56 发布

阅读量194

点赞数 3

分类专栏： spark 文章标签： python 数据挖掘 spark

本文链接：https://blog.csdn.net/QQ2743785109/article/details/134063314

版权

本文提出了一款使用Spark集群和SpringBoot的电影分享社交平台，通过协同过滤等推荐算法为用户提供个性化电影推荐，解决用户选择困扰。平台还包括在线聊天和电影评论功能，提高了用户体验。

摘要由CSDN通过智能技术生成

收藏关注不迷路

前言

本论文主要针对互联网上海量信息对用户造成的选择困扰问题，设计并实现了一款基于Spark集群的电影分享社交平台，该平台使用SpringBoot框架搭建Web平台，用Spark集群以及协同过滤算法对数据进行计算，推荐用户可能喜欢的电影，过滤用户不需要的垃圾信息，向用户提供个性化服务，以及使用Socket技术实现在线实时聊天，让用户体验良好的在线互动，并且增加了电影评论的功能，让用户在挑选电影观看之前能够快速通过电影评分以及他人评价，得到电影是否适合自己观看的合理判断。解决了用户选择困扰的问题，在智能推荐方面与传统电影网站有明显的改进。

关键词：推荐系统；协同过滤算法；Spark；Socket

一、　研究路线图

在这里插入图片描述

图1.1 研究路线图
相关理论：logistic回归，K近邻方法，决策树。
数据预处理：处理数据中的缺失值以及参数变量。
模型训练：三种模型分别训练。
参数对比：对比三种模型之间的结果参数，分析三种模型的优越性。

二、开发环境

2.1 框架以及基础技术介绍

2.1.1 Spark和Hadoop介绍

Spark作为专门为大数据量提供快速迭代式计算的通用内存并行计算框架，虽然发布的时间不长，但已成为目前主流集群计算平台之一，可以很好的应用于大规模的数据处理程序并且改善高延迟的问题。而另一个有着重要地位的集群计算平台，是开源分布式计算平台Hadoop，Hadoop中的MapReduce对于Spark的发展起到了关键性的作用，Spark计算模块去其糟粕取其精华，继承分布式计算的优点，在此基础之上，使用RDD灵活的改善了计算方式，直接的在内存当中计算数据，并且能够完成迭代功能。完善了MapReduce只能够将计算结果保存到磁盘中的方式，大大的提高了计算的效率，根据官方数据的统计，在磁盘读取数据的前提之下，Saprk相对于Hadoop MapReduce的计算速度，能够提高到10倍以上，在内存读取数据的前提之下，甚至可以提高到100倍的速度。其次Spark的一大特色或者说优点，便是RDD弹性分布式数据集[6]，Spark将其作为最基本的单位，它们是一些不能更改的只读集合，弹性数据的意思就是，这些数据即使丢失了，也仍然可以通过数据衍生的过程对这些集合进行重建恢复，所以说弹性，从而保证了Spark的容错性。而RDD的优点不止于此，RDD不储存真实的数据，而是利用抽象的数据集，储存索引，利用索引去定位数据的真实储存，再使用接口的方式去拿到数据进行计算处理，利用该特点，更多的将数据储存在能够直接进行运算的内存中，而不去浪费硬盘空间，极大的节省了IO的开销，内存空间耗尽时才将数据放入硬盘。利用RDD的优势，Spark在性能上面远远的超过Hadoop，本系统使用的是Spark融入Hadoop生态系统的平台进行数据的计算。

2.2.1 协同过滤推荐算法

协同过滤推荐算法[8](CF, Collaborative Filtering)根据用户浏览过的页面信息，给予较高评价的物品以及常常关注的物品信息，去计算得到该用户的行为习惯、兴趣爱好等，从而向用户推荐用户可能会感兴趣的物品的算法。获取原始数据之后，对数据进行预处理，得到用户-物品评分矩阵，再使用算法进行计算，通过计算得到当前用户对其它物

最低0.47元/天解锁文章

QQ2743785109

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于Spark集群的电影分享社交平台的设计与实现

本论文主要针对互联网上海量信息对用户造成的选择困扰问题，设计并实现了一款基于Spark集群的电影分享社交平台，该平台使用SpringBoot框架搭建Web平台，用Spark集群以及协同过滤算法对数据进行计算，推荐用户可能喜欢的电影，过滤用户不需要的垃圾信息，向用户提供个性化服务，以及使用Socket技术实现在线实时聊天，让用户体验良好的在线互动，并且增加了电影评论的功能，让用户在挑选电影观看之前能够快速通过电影评分以及他人评价，得到电影是否适合自己观看的合理判断。
复制链接

扫一扫