基于Spark集群的电影分享社交平台的设计与实现

本文提出了一款使用Spark集群和SpringBoot的电影分享社交平台,通过协同过滤等推荐算法为用户提供个性化电影推荐,解决用户选择困扰。平台还包括在线聊天和电影评论功能,提高了用户体验。
摘要由CSDN通过智能技术生成

收藏关注不迷路


前言

  本论文主要针对互联网上海量信息对用户造成的选择困扰问题,设计并实现了一款基于Spark集群的电影分享社交平台,该平台使用SpringBoot框架搭建Web平台,用Spark集群以及协同过滤算法对数据进行计算,推荐用户可能喜欢的电影,过滤用户不需要的垃圾信息,向用户提供个性化服务,以及使用Socket技术实现在线实时聊天,让用户体验良好的在线互动,并且增加了电影评论的功能,让用户在挑选电影观看之前能够快速通过电影评分以及他人评价,得到电影是否适合自己观看的合理判断。解决了用户选择困扰的问题,在智能推荐方面与传统电影网站有明显的改进。

关键词:推荐系统;协同过滤算法;Spark;Socket

一、 研究路线图

在这里插入图片描述

图1.1 研究路线图
相关理论:logistic回归,K近邻方法,决策树。
数据预处理:处理数据中的缺失值以及参数变量。
模型训练:三种模型分别训练。
参数对比:对比三种模型之间的结果参数,分析三种模型的优越性。

二、开发环境

2.1 框架以及基础技术介绍

2.1.1 Spark和Hadoop介绍

  Spark作为专门为大数据量提供快速迭代式计算的通用内存并行计算框架,虽然发布的时间不长,但已成为目前主流集群计算平台之一,可以很好的应用于大规模的数据处理程序并且改善高延迟的问题。而另一个有着重要地位的集群计算平台,是开源分布式计算平台Hadoop,Hadoop中的MapReduce对于Spark的发展起到了关键性的作用,Spark计算模块去其糟粕取其精华,继承分布式计算的优点,在此基础之上,使用RDD灵活的改善了计算方式,直接的在内存当中计算数据,并且能够完成迭代功能。完善了MapReduce只能够将计算结果保存到磁盘中的方式,大大的提高了计算的效率,根据官方数据的统计,在磁盘读取数据的前提之下,Saprk相对于Hadoop MapReduce的计算速度,能够提高到10倍以上,在内存读取数据的前提之下,甚至可以提高到100倍的速度。 其次Spark的一大特色或者说优点,便是RDD弹性分布式数据集[6],Spark将其作为最基本的单位,它们是一些不能更改的只读集合,弹性数据的意思就是,这些数据即使丢失了,也仍然可以通过数据衍生的过程对这些集合进行重建恢复,所以说弹性,从而保证了Spark的容错性。而RDD的优点不止于此,RDD不储存真实的数据,而是利用抽象的数据集,储存索引,利用索引去定位数据的真实储存,再使用接口的方式去拿到数据进行计算处理,利用该特点,更多的将数据储存在能够直接进行运算的内存中,而不去浪费硬盘空间,极大的节省了IO的开销,内存空间耗尽时才将数据放入硬盘。利用RDD的优势,Spark在性能上面远远的超过Hadoop,本系统使用的是Spark融入Hadoop生态系统的平台进行数据的计算。

2.2.1 协同过滤推荐算法

  协同过滤推荐算法[8](CF, Collaborative Filtering)根据用户浏览过的页面信息,给予较高评价的物品以及常常关注的物品信息,去计算得到该用户的行为习惯、兴趣爱好等,从而向用户推荐用户可能会感兴趣的物品的算法。获取原始数据之后,对数据进行预处理,得到用户-物品评分矩阵,再使用算法进行计算,通过计算得到当前用户对其它物

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值