数据集下载
数据结构分析
本次所分析的数据有用户、电影、评分三个表,结构如下:
用户表
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/56b32ec0777332ac0a932d86f0532fb9.png)
电影表
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/4188730e0bb7d76a5208da8bd3a3df5b.png)
评分表
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/4e4304bf3f6692dee7e0c632b08aa8bc.png)
数据一瞥
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/a02c6327d84988e36c4558fb7e09be6c.png)
数据分析
一共有十个需求,需求一到五作为学习参考,需求六到十自己动手实践。
项目结构如图:
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/d014e57fa75c1ccde1eea66b6cba3718.png)
在分析之前,先建立一个Utils类,主要用于初始化配置信息以及解析原始数据。(记得修改数据文件路径)
package movie
import org.apache.spark.rdd.RDD
import org.apache.spark.{
SparkConf, SparkContext}
class