【Spark】SparkSQL影评案例学习分享

最新推荐文章于 2023-08-15 10:42:47 发布

离澈澈澈

最新推荐文章于 2023-08-15 10:42:47 发布

阅读量769

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/liche33/article/details/104444661

版权

这是我在学习过程中遇到的比较经典的项目，用于SparkSQL练习使用

项目需求如下

1、求被评分次数最多的 10 部电影，并给出评分次数（电影名，评分次数）
2、分别求男性，女性当中评分最高的 10 部电影（性别，电影名，影评分）（评论次数必须
达到 50 次）
3、分别求男性，女性看过最多的 10 部电影（性别，电影名） 
4、年龄段在”18-24”的男人，最喜欢看 10 部电影
5、求 movieid = 2116 这部电影各年龄段（因为年龄就只有 7 个，就按这个 7 个分就好了）的平均影评（年龄段，影评分）
6、求最喜欢看电影（影评次数最多）的那位女性评最高分的 10 部电影（评论次数必须达到50 次，如果最评分相同，请取评论次数多的，否则取评分高的）的平均影评分（观影者，电影名，影评分）
7、求好片（评分>=4.0）最多的那个年份中的最好看的 10 部电影（评论次数达到 50） 
8、求 1997 年上映的电影中，评分最高的 10 部 Comedy 类电影（评论次数达到 50） 
9、该影评库中各种类型电影中评价最高的 5 部电影（类型，电影名，平均影评分）
10、各年评分最高的电影类型（年份，类型，影评分）

需要使用到的数据描述如下

1、users.dat 数据格式为： 2::M::56::16::70072
对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String
对应字段中文解释：用户 id，性别，年龄，职业，邮政编码
2、movies.dat 数据格式为： 2::Jumanji (1995)::Adventure|Children's|Fantasy
对应字段为：MovieID BigInt, Title String, Genres String
对应字段中文解释：电影 ID，电影名字，电影类型
3、ratings.dat 数据格式为： 1::1193::5::978300760
对应字段为：UserID BigInt, MovieID BigInt, Rating Double, Timestamped String
对应字段中文解释：用户 ID，电影 ID，评分，评分时间戳

在写SparkSQL时，我们应该知道，SQL语句是可以使用的，同时还可以用到SparkSQL中一些内置函数

整体的设计SQL语句的思路
查询思路
select ** from xx1 join xx2 join xx3 on where xx group by xx having xx order by xx
可用的一些拓展语句
topN:row_number() over() 嵌套子查询 explode 字符串拆分

代码

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

//照着字段自己给定义的类型,编辑样例类
case class User(userid: Int, sex: String, age: Int, occupation: String, zipcode: String)

case class Movie(movieid: Int, moviename: String, movietype: String)

case class Rating(userid: Int, movieId: Int, rate: Double, times: String)

object SparkSQL_Movie {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("SparkSQL_Movie").master("local").getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    //rdd转DF需导入隐式转换
    import spark.implicits._
    //把数据转成数据集
    val user: Dataset[User] = spark.read.textFile("file:///E:/spark movie data/input/users.dat").map(_.split("::")).map(x => User(x(0).toInt, x(1), x(2).toInt, x(3), x(4)))
    val movie: Dataset[Movie] = spark.read.textFile("file:///E:/spark movie data/input/movies.dat").map(_.split("::")).map(x => Movie(x(0).toInt, x(1), x(2)))
    val rating: Dataset[Rating] = spark.read.textFile("file:///E:/spark movie data/input/ratings.dat").map(_.split("::")).map(x => Rating(x(0).toInt, x(1).toInt, x(2).toDouble, x(3)))
    //先查看相关数据
    //    user.show()
    //    movie.show()
    //    rating.show()

    //用sql实现
    //建表-临时表
    user.createOrReplaceTempView("t_user")
    movie.createOrReplaceTempView("t_movie")
    rating.createOrReplaceTempView("t_rating")

    //思路:复杂业务分解，把握核心
    //1、求被评分次数最多的 10 部电影，并给出评分次数（电影名，评分次数）
    val df1a: DataFrame = spark.sql(
      """
                select moviename,count(*) mcount from t_rating a join t_movie b on a.movieid=b.movieid group by moviename  order by mcount desc limit 10
              """)
    df1a.show()
  }
}

离澈澈澈

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【Spark】SparkSQL影评案例学习分享

这是我在学习过程中遇到的比较经典的项目，用于SparkSQL练习使用项目需求如下1、求被评分次数最多的 10 部电影，并给出评分次数（电影名，评分次数）2、分别求男性，女性当中评分最高的 10 部电影（性别，电影名，影评分）（评论次数必须达到 50 次）3、分别求男性，女性看过最多的 10 部电影（性别，电影名） 4、年龄段在”18-24”的男人，最喜欢看 10 部电影5、求 mov...
复制链接

扫一扫