spark_Sql 基于用户对电影的一系列评分数据进行离线任务分析

在这里插入图片描述在这里插入图片描述

package com.briup.spark.sc.movies_analyse

import com.briup.Utils.{getSC, getSS}
import org.apache.log4j.Level
import org.apache.spark.{SparkContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, RelationalGroupedDataset, Row, SparkSession}

object MovieAnalyseCase {
  org.apache.log4j.Logger.getLogger("org").setLevel(Level.ERROR)

  //读取三张表的数据
  private val spark: SparkSession = getSS

  import spark.implicits._

  //电影movies.dat字段组成:  电影id::名字::类别
  private val movies: DataFrame = spark.read.format("csv")
    .option("sep", "::")
    .option("inferSchema", "true")
    .load("data/movies.dat").toDF("moviesid", "name", "type")

  //评分表ratings.dat字段组成:用户id::电影id::评分::时间戳
  private val rats: DataFrame = spark.read.format("csv")
    .option("sep", "::")
    .option("inferSchema", "true")
    .load("data/ratings.dat").toDF("user_id", "moviesid", "score", "timestamp")

  //user.dat数据组成:   用户id::性别::年龄::职业代码::邮编
  private val users: DataFrame = spark.read.format("csv")
    .option("sep", "::")
    .option("inferSchema", "true")
    .load("data/users.dat").toDF("user_id", "gender", "age", "dept", "postcode")


  /**
   * 男女用户的比例
   * user.dat数据组成:
   * 用户id::性别::年龄::职业代码::邮编
   */
  def sexAnalyse: Unit = {
    val sc: SparkContext = getSC
    val userRDD: RDD[String] = sc.textFile("data/users.dat")

    val groupRDD: RDD[(String, Iterable[String])] = userRDD.map(_.split("::")(1)).groupBy(x => x)

    //    groupRDD.foreach(println)
    val resultRDD: RDD[(String, Int)] = groupRDD.map(x => (x._1, x._2.size))

    //得到男女人数的数组
    val res: Array[(String, Int)] = resultRDD.collect()

    //计算男女比例    男/女
    var finalRes: Double = res(0)._2.toDouble / res(1)._2.toDouble

    println(finalRes)
  }

  /**
   * 统计每个用户的平均评分中,排名前十和最后十名的用户及其评分分别是多少
   * 评分表ratings.dat字段组成:
   * 用户id::电影id::评分::时间戳
   */
  def ratingScore(): Unit = {
    val sc: SparkContext = getSC

    //textFile默认为2个分区
    val rdd: RDD[String] = sc.textFile("data/ratings.dat")

    //得到(用户id,评分)的rdd
    val rdd1: RDD[(String, Int)] = rdd.map(x => {
      val strs: Array[String] = x.split("::")
      (strs(0), strs(2).toInt)
    })

    //    rdd1.foreach(println)

    //得到(用户id,总评分)的数据集rdd
    val rdd2: RDD[(String, Int)] = rdd1.reduceByKey(_ + _)

    //分组得到(用户id,评分集合)的数据集rdd
    val rdd3: RDD[(String, Iterable[Int])] = rdd1.groupByKey()

    //求每个用户的平均评分
    val resultAvg: RDD[(String, Int)] = rdd3.map(x => {
      val avg: Int = x._2.reduce(_ + _) / x._2.size
      (x._1, avg)
    })

    //求出每个用户的平均评分中,排名前十和最后十名的用户及其评分分别是多少
    //  1.先对resultAvg进行升序排序
    val sortRes: RDD[(String, Int)] = resultAvg.sortBy(_._2)

    //得到每个用户的平均评分中,最后十名的用户及其评分
    val tail10: Array[(String, Int)] = sortRes.take(10)
    //    tail10.foreach(println)

    //得到每个用户的平均评分中,排名前十的用户及其评分
    //  2.先对resultAvg进行降序排序
    val top10: Array[(String, Int)] = resultAvg.sortBy(_._2, false).take(10)
    top10.foreach(println)

  }

  /**
   * 按性别计算每部电源的平均得分
   * 评分表ratings.dat字段组成:
   * 用户id::电影id::评分::时间戳
   * 最后结果
   * (男,电影id,平均评分)
   */
  def sexScoreAnalyse(): Unit = {
    val sc = getSC

    //1. 首先得到(用户id,电影id,评分)
    //获取评分表的数据  (用户id,电影id,评分)
    val rates = sc.textFile("data/ratings.dat").map(x => {
      val strs: Array[String] = x.split("::")
      (strs(0), strs(1), strs(2))
    })


    //2. 基于(用户id, 电源id)求电源评分的平均值
    val rdd: RDD[(String, (String, Double))] = rates.map(x => (x._1, (x._2, x._3.toDouble)))
    //    rdd.foreach(println)

    //**************************************************
    //基于用户表得到 (用户id:性别)
    val users: RDD[(String, String)] = sc.textFile("data/users.dat").map(x => {
      val strs: Array[String] = x.split("::")
      (strs(0), strs(1))
    })


    //(男,电影id,平均评分)
    //得到(用户id,(电影id,评分),性别))
    val joinRDD: RDD[(String, ((String, Double), Option[String]))] = rdd.leftOuterJoin(users)
    //    joinRDD.foreach(println)

    //得到((性别,电源id),电源评分)
    val sexRDD: RDD[((String, String), Double)] = joinRDD.map(x => {
      val moviesAndScore: (String, Double) = x._2._1
      val sex: String = x._2._2.get
      ((sex, moviesAndScore._1), moviesAndScore._2)
    })

    val groupSexRDD: RDD[((String, String), Iterable[Double])] = sexRDD.groupByKey()

    val avgSexRDD: RDD[((String, String), Double)] = groupSexRDD.mapValues(x => {
      val sum: Double = x.reduce(_ + _)
      val avg: Double = sum / x.size
      avg
    })

    avgSexRDD.foreach(println)

  }

  /**
   * 过滤掉评分数据不够250条的电影,按性别计算每部电影的平均分
   * 评分表:用户id,电影id,评分,时间戳
   */
  def filterMovies: Unit = {
    org.apache.log4j.Logger.getLogger("org").setLevel(Level.ERROR)
    val spark: SparkSession = getSS
    import spark.implicits._

    // Step1: 过滤掉评分数据不足250条的电影
    val df: DataFrame = spark.read.format("csv")
      .option("sep", "::")
      .load("data/ratings.dat")
      .toDF("user_id", "moviesid", "score", "timestamp")

    //    df.show(20,false)
    df.createOrReplaceTempView("rating")

    //    spark.sql("select user_id,movie_id from rating").show()

    //过滤掉评分数据不足250条的电影id及数量
    val rats_over250: Dataset[Row] = df.groupBy("moviesid").count().filter($"count" >= 250)
    //    rats_over250.show(false)

    //得到过滤之后的评分表
    val rats_fiter: DataFrame = rats_over250.join(rats, Seq("moviesid"), "left_outer")

    //得到过滤之后评分表与用户表进行等值连接
    val user_rats: DataFrame = rats_fiter.join(users, "user_id")

    user_rats.printSchema()
    val moviesInfo: RelationalGroupedDataset = user_rats.groupBy("moviesid", "gender")
    val result: DataFrame = moviesInfo.avg("score").join(movies, "moviesid").toDF("moviesid", "gender", "scores",
      "name", "type")

    result.show(false)
    //    user_rats.show(false)
  }


  /**
   * 男女观众分别最喜欢的前十部电影
   */
  def five: Unit = {
    val rats_user: DataFrame = rats.join(users, "user_id")
    val group: RelationalGroupedDataset = rats_user.groupBy("moviesid", "gender")
    val genderMovie: DataFrame = group.avg("score").join(movies, "moviesid").toDF("moviesid", "gender", "score", "name", "type")
    println("男女观众分别最喜欢的前十部电影:")
    val f: Dataset[Row] = genderMovie.filter($"gender" === "F").sort($"score".desc, $"moviesid".asc).limit(10)
    val m: Dataset[Row] = genderMovie.filter($"gender" === "M").sort($"score".desc, $"moviesid".asc).limit(10)
    f.show()
    m.show()
  }

  /**
   * 6.男女观众评分差别最大的十部电影
   * movies:  "moviesid", "name", "type"
   * rats:  "user_id", "moviesid", "score", "timestamp"
   * users: "user_id", "gender", "age", "dept", "postcode"
   */

  def six: Unit = {
    //uesrs表和rats表基于user_id进行等值连接
    val rats_users: DataFrame = rats.join(users, "user_id")
    rats_users.groupBy("moviesid", "gender").avg("score")
      .sort($"moviesid")
      .toDF("moviesid", "gender", "avg_score")
      .groupBy("moviesid").pivot("gender")
      .max("avg_score")
      .sort("moviesid")
      //      .show()
      .selectExpr("moviesid", "F", "M", "abs(F - M) df")
      .sort($"df".desc, $"moviesid")
      .limit(10)
      .join(movies, "moviesid")
      .select("moviesid", "name", "F", "M", "df")
      .sort($"df".desc, $"moviesid")
      .show(false)

  }

  /**
   * 7.所有观众评分分歧最大的十部电影(电影评分标准差大者,分歧则大)
   * movies:  "moviesid", "name", "type"
   * rats:  "user_id", "moviesid", "score", "timestamp"
   * users: "user_id", "gender", "age", "dept", "postcode"
   */
  def seven(): Unit = {
    /*
    思路:
        基于rats表,对moviesid分组,求每部电影评分的标准差
        然后将得到的表与movies表进行等值连接
     */
    val baseData=rats.groupBy("moviesid").agg("score"->"avg")
      .join(rats,Seq("moviesid"),"right_outer")
    val mData=baseData.map(row=>{
      val avg=row.getDouble(1);
      val score=row.getInt(3);
      //sqrt(1/N*((score1-avg)^2+(score1-avg)^2+(score1-avg)^2))
      val result=Math.pow((score-avg),2);
      (row.getString(0),result);
    }).toDF("moviesid","score");
    val mData2=mData.groupBy("moviesid").agg("score"->"sum","score"->"count").toDF("moviesid","sum","count");
    val result=mData2.map(row=>{
      val sum=row.getDouble(1);
      val count=row.getLong(2);
      val result=Math.sqrt(sum/count);
      (row.getString(0),result)
    }).toDF("moviesid","result").join(movies,Seq("moviesid"),"left_outer")
      .sort($"result".desc,$"moviesid".asc).limit(10);

    result.show(false)
  }

  def main(args: Array[String]): Unit = {
    seven
  }
}

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 第1关的任务是将文件中的数据导入到Hive表中。这可以通过使用Hive的LOAD命令来完成。首先需要创建一个Hive表,然后使用LOAD命令将文件中的数据加载到该表中。具体步骤如下: 1. 创建Hive表:使用CREATE TABLE语句创建一个Hive表,指定表的列名和数据类型。 2. 准备数据文件:将需要导入的数据保存到一个文本文件中,每行数据对应表中的一条记录。 3. 使用LOAD命令导入数据:使用LOAD命令将数据文件中的数据导入到Hive表中。 例如,以下是一个简单的示例: CREATE TABLE my_table ( id INT, name STRING, age INT ); LOAD DATA LOCAL INPATH '/path/to/data/file' INTO TABLE my_table; 其中,my_table是要创建的Hive表的名称,id、name和age是表的列名和数据类型。LOAD命令将数据文件中的数据导入到my_table表中。需要注意的是,数据文件的路径应该是本地文件系统的路径,而不是HDFS路径。如果数据文件在HDFS上,可以使用LOAD命令的其他选项来指定HDFS路径。 ### 回答2: 将文件中的数据导入到Hive表中,需要以下几个步骤: 1. 创建Hive表 首先,需要在Hive中创建一张表,表的结构需要和待导入的文件的结构保持一致,即表中的各列需要和文件中的各列相对应。可以使用Hive的CREATE TABLE语句创建表,例如: CREATE TABLE mytable ( id INT, name STRING, age INT, gender STRING ); 2. 创建外部表 若待导入的文件已经存在于HDFS上,我们可以创建外部表来映射这些文件,这样导入数据时就不需要将文件先拷贝到Hive的仓库目录下。可以使用Hive的CREATE EXTERNAL TABLE语句创建外部表,例如: CREATE EXTERNAL TABLE my_ext_table ( id INT, name STRING, age INT, gender STRING ) LOCATION '/user/hadoop/data'; 其中,LOCATION参数指定了待导入的文件所在的HDFS路径。 3. 导入数据 数据可以使用LOAD DATA INPATH命令将数据导入Hive表中。例如: LOAD DATA INPATH '/user/hadoop/data/input.txt' INTO TABLE mytable; 其中,/user/hadoop/data/input.txt为待导入的文件的完整路径名,mytable为目标表的表名。可以使用相对路径或者HDFS URL指定待导入的文件。 导入过程中,Hive会自动识别文件中的分隔符、行终止符等信息,并将数据解析成表中的行。若文件中的列与表中的列不一致,导致解析失败,则可能会导致数据加载失败。 总的来说,将文件数据导入到Hive表中的过程并不复杂,只需要在Hive中创建一个表,创建一个外部表(可选),并使用LOAD DATA INPATH命令将文件数据导入即可。在导入过程中需要注意数据格式的一致性,以免导致解析失败。 ### 回答3: 在Hadoop生态系统中,Hive是一种基于Hadoop的数据仓库架构,它可以将结构化数据映射到Hadoop的分布式文件系统中。Hive是基于SQL的解决方案,允许用户使用SQL查询语句来操作存储在Hadoop集群中的数据。 第一关的任务是将文件中的数据导入到Hive表中。首先,需要确保Hadoop和Hive已经正确地安装和配置。如果还没有安装和配置Hadoop和Hive,请先按照要求完成这些步骤。 一旦Hadoop和Hive都已准备好,就可以开始导入数据了。在这个任务中,你需要使用Sqoop工具来将MySQL数据库中的数据导入到Hadoop中。Sqoop是一个开放源代码工具,它可以在Hadoop和结构化数据存储(如RDBMS)之间传输数据。 下面是实现的步骤: 1. 创建一个目录,用于存储从MySQL导出的数据。假设这个目录是“/user/hive/import”。 2. 运行Sqoop命令来导出MySQL数据库中的数据。假设这个命令的输出文件名为“myfile.txt”,并且输出的数据由“id”和“name”两列组成。Sqoop命令如下: sqoop export --connect jdbc:mysql://localhost/mydb --username myusername --password mypassword --table mytable --fields-terminated-by ',' --export-dir /user/hive/import --input-fields-terminated-by ',' --columns id,name --outdir /tmp 3. 运行Hive命令,创建一个表来存储上一步骤导出的数据。命令如下: CREATE TABLE myhive (id INT, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 4. 运行Hive命令,将“myfile.txt”中的数据加载到新创建的表中。命令如下: LOAD DATA INPATH '/user/hive/import/myfile.txt' INTO TABLE myhive; 至此,第一关的任务就完成了。现在你已经成功地将数据从MySQL导入到Hive表中。你可以运行查询语句来检查表中的数据是否正确。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

A_Zhong20

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值