这是我在学习过程中遇到的比较经典的项目,用于SparkSQL练习使用
项目需求如下
1、求被评分次数最多的 10 部电影,并给出评分次数(电影名,评分次数)
2、分别求男性,女性当中评分最高的 10 部电影(性别,电影名,影评分)(评论次数必须
达到 50 次)
3、分别求男性,女性看过最多的 10 部电影(性别,电影名)
4、年龄段在”18-24”的男人,最喜欢看 10 部电影
5、求 movieid = 2116 这部电影各年龄段(因为年龄就只有 7 个,就按这个 7 个分就好了)的平均影评(年龄段,影评分)
6、求最喜欢看电影(影评次数最多)的那位女性评最高分的 10 部电影(评论次数必须达到50 次,如果最评分相同,请取评论次数多的,否则取评分高的)的平均影评分(观影者,电影名,影评分)
7、求好片(评分>=4.0)最多的那个年份中的最好看的 10 部电影(评论次数达到 50)
8、求 1997 年上映的电影中,评分最高的 10 部 Comedy 类电影(评论次数达到 50)
9、该影评库中各种类型电影中评价最高的 5 部电影(类型,电影名,平均影评分)
10、各年评分最高的电影类型(年份,类型,影评分)
需要使用到的数据描述如下
1、users.dat 数据格式为: 2::M::56::16::70072
对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String
对应字段中文解释:用户 id,性别,年龄,职业,邮政编码
2、movies.dat 数据格式为: 2::Jumanji (1995)::Adventure|Children's|Fantasy
对应字段为:MovieID BigInt, Title String, Genres String
对应字段中文解释:电影 ID,电影名字,电影类型
3、ratings.dat 数据格式为: 1::1193::5::978300760
对应字段为:UserID BigInt, MovieID BigInt, Rating Double, Timestamped String
对应字段中文解释:用户 ID,电影 ID,评分,评分时间戳
在写SparkSQL时,我们应该知道,SQL语句是可以使用的,同时还可以用到SparkSQL中一些内置函数
整体的设计SQL语句的思路
查询思路
select ** from xx1 join xx2 join xx3 on where xx group by xx having xx order by xx
可用的一些拓展语句
topN:row_number() over() 嵌套子查询 explode 字符串拆分
代码
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}
//照着字段自己给定义的类型,编辑样例类
case class User(userid: Int, sex: String, age: Int, occupation: String, zipcode: String)
case class Movie(movieid: Int, moviename: String, movietype: String)
case class Rating(userid: Int, movieId: Int, rate: Double, times: String)
object SparkSQL_Movie {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().appName("SparkSQL_Movie").master("local").getOrCreate()
spark.sparkContext.setLogLevel("WARN")
//rdd转DF需导入隐式转换
import spark.implicits._
//把数据转成数据集
val user: Dataset[User] = spark.read.textFile("file:///E:/spark movie data/input/users.dat").map(_.split("::")).map(x => User(x(0).toInt, x(1), x(2).toInt, x(3), x(4)))
val movie: Dataset[Movie] = spark.read.textFile("file:///E:/spark movie data/input/movies.dat").map(_.split("::")).map(x => Movie(x(0).toInt, x(1), x(2)))
val rating: Dataset[Rating] = spark.read.textFile("file:///E:/spark movie data/input/ratings.dat").map(_.split("::")).map(x => Rating(x(0).toInt, x(1).toInt, x(2).toDouble, x(3)))
//先查看相关数据
// user.show()
// movie.show()
// rating.show()
//用sql实现
//建表-临时表
user.createOrReplaceTempView("t_user")
movie.createOrReplaceTempView("t_movie")
rating.createOrReplaceTempView("t_rating")
//思路:复杂业务分解,把握核心
//1、求被评分次数最多的 10 部电影,并给出评分次数(电影名,评分次数)
val df1a: DataFrame = spark.sql(
"""
select moviename,count(*) mcount from t_rating a join t_movie b on a.movieid=b.movieid group by moviename order by mcount desc limit 10
""")
df1a.show()
}
}