Spark SQL案例：计算平均分

最新推荐文章于 2023-06-06 12:17:11 发布

xizaizhao

最新推荐文章于 2023-06-06 12:17:11 发布

阅读量472

点赞数 1

文章标签： spark sql scala

本文链接：https://blog.csdn.net/m0_67806436/article/details/125326734

版权

文章目录

一、提出任务
二、完成任务

一、提出任务

有多科成绩表，比如python.txt、spark.txt、django.txt，计算每个学生三科平均分
Python成绩表 - python.txt
``
1 张三丰 89
2 李孟达 95
3 唐雨涵 92
4 王晓云 93
5 张晓琳 88
6 佟湘玉 88
7 杨文达 66
8 陈燕文 98


 - Spark成绩表 - spark.txt

1 张三丰 67
2 李孟达 78
3 唐雨涵 89
4 王晓云 75
5 张晓琳 93
6 佟湘玉 70
7 杨文达 87
8 陈燕文 90


- Django成绩表 - django.txt

1 张三丰 88
2 李孟达 93
3 唐雨涵 97
4 王晓云 87
5 张晓琳 79
6 佟湘玉 89
7 杨文达 93
8 陈燕文 95


 - 期望输出结果如下所示：

1 张三丰 81.33
2 李孟达 88.67
3 唐雨涵 92.67
4 王晓云 85.00
5 张晓琳 86.67
6 佟湘玉 82.33
7 杨文达 82.00
8 陈燕文 94.33
``

预备工作：启动集群的HDFS与Spark
在HDFS上新建/score目录
在master虚拟机上创建三个成绩文件
将三个成绩文件上传到HDFS的/score目录
查看三个成绩文件内容

二、完成任务

（一）新建Maven项目

设置项目信息（项目名、保存位置、组编号、项目编号）
单击【Finish】按钮
将java目录改成scala目录

（二）添加相关依赖和构建插件

在pom.xml文件里添加依赖与Maven构建插件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>net.zx.sql</groupId>
    <artifactId>CalculateAverage</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.12</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
    </dependencies>
    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.3.0</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.3.2</version>
                <executions>
                    <execution>
                        <id>scala-compile-first</id>
                        <phase>process-resources</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                    <execution>
                        <id>scala-test-compile</id>
                        <phase>process-test-resources</phase>
                        <goals>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

（三）创建日志属性文件

在资源文件夹里创建日志属性文件 - log4j.properties

log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spark.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

（四）创建计算平均分单例对象

在net.huawei.sql包里创建CalculateAverageBySQL单例对象

package net.zx.sql

import org.apache.spark.sql.{Dataset, SparkSession}

/**
 * 功能：利用Spark SQL计算平均分
 * 作者：xizaizhao
 * 日期：2022年06月16日
 */
object CalculateAverageBySQL {
  def main(args: Array[String]): Unit = {
    // 创建或得到Spark会话对象
    val spark = SparkSession.builder()
      .appName("CalculateAverageBySQL")
      .master("local[*]")
      .getOrCreate()
    // 读取HDFS上“/score”目录里的成绩文件
    val lines: Dataset[String] = spark.read.textFile("hdfs://master:9000/score")
    // 导入隐式转换
    import spark.implicits._
    // 创建成绩数据集
    val gradeDS: Dataset[Grade] = lines.map(
      line => {
        val fields = line.split(" ")
        val id = fields(0).toInt
        val name = fields(1)
        val score = fields(2).toInt
        Grade(id, name, score)
      })
    // 将数据集转换成数据帧
    val df = gradeDS.toDF();
    // 基于数据帧创建临时表
    df.createOrReplaceTempView("t_grade")
    // 查询临时表，计算平均分
    val avg = spark.sql(
      """
        |select first(id) as id, name, cast(avg(score) as decimal(5, 2)) as average
        |   from t_grade
        |   group by name
        |   order by id
        |""".stripMargin
    )

    // 按照指定格式输出平均成绩
    println()
    avg.collect.foreach(row => println(row(0) + " " + row(1) + " " + row (2)))

    // 关闭Spark会话
    spark.close()
  }

  // 定义成绩样例类
  case class Grade(id: Int, name: String, score: Int)
}

（五）本地运行程序，查看结果

在控制台查看输出结果

xizaizhao

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL案例：计算平均分

1 张三丰 672 李孟达 783 唐雨涵 894 王晓云 755 张晓琳 936 佟湘玉 707 杨文达 878 陈燕文 901 张三丰 882 李孟达 933 唐雨涵 974 王晓云 875 张晓琳 796 佟湘玉 897 杨文达 938 陈燕文 951 张三丰 81.332 李孟达 88.673 唐雨涵 92.674 王晓云 85.005 张晓琳 86.676 佟湘玉 82.337 杨文达 82.008 陈燕文 94.33``...
复制链接

扫一扫