学习笔记:使用Spark进行特征向量统计分析

题目:

在给定的数据集中,计算带权重和不带权重的特征向量的均值和方差。

数据:

我们有两个样本,每个样本由一个三维特征向量和一个权重组成。具体数据如下:

  • 第一个样本的特征向量是 [2.0, 3.0, 5.0],权重为 1.0。
  • 第二个样本的特征向量是 [4.0, 6.0, 7.0],权重为 2.0。
代码实现:
import org.apache.spark.SparkConf
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.stat.Summarizer._
import org.apache.spark.sql.SparkSession

object SparkTask3 {
  def main(args: Array[String]): Unit = {

    // 创建Spark配置对象
    val conf = new SparkConf().setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).appName("task3").getOrCreate()

    import spark.implicits._

    // 创建数据集DataFrame
    val data = Seq(
      (Vectors.dense(2.0, 3.0, 5.0), 1.0),
      (Vectors.dense(4.0, 6.0, 7.0), 2.0)
    )
    val df = data.toDF("features", "weight")

    // 使用带权重的均值和方差方法计算
    val (meanVal, varianceVal) = df.select(metrics("mean", "variance")
      .summary($"features", $"weight").as("summary"))
      .select("summary.mean", "summary.variance")
      .as[(Vector, Vector)].first()

    println(s"with weight: mean = ${meanVal}, variance = ${varianceVal}")

    // 使用不带权重的均值和方差方法计算
    val (meanVal2, varianceVal2) = df.select(mean($"features"), variance($"features"))
      .as[(Vector, Vector)].first()

    println(s"without weight: mean = ${meanVal2}, sum = ${varianceVal2}")

    spark.stop()
  }
}

scala复制代码

笔记说明:
  1. 首先导入了要使用的Spark相关库和类。
  2. 然后创建了一个Spark配置对象,并通过SparkSession构建器创建了一个SparkSession。
  3. 在代码中,定义了两个样本,分别由一个三维特征向量和一个权重组成。特征向量和权重的具体数值分别给出。
  4. 通过Seq集合将数据转换为DataFrame,并命名特征向量列为"features",权重列为"weight"。
  5. 使用metrics函数计算带权重的均值和方差。通过summary方法,将特征向量和权重列作为参数,并将计算结果命名为"summary"。
  6. 从结果中选择 "summary.mean" 和 "summary.variance" 列,并将其转换为两个向量类型的值。
  7. 打印带权重的均值和方差结果。
  8. 使用不带权重的meanvariance方法计算特征向量的均值和方差。
  9. 将结果转换为两个向量类型的值。
  10. 打印不带权重的均值和方差结果。
  11. 停止SparkSession。
结果解释:
  • 带权重的均值:[3.333333333333333, 5.0, 6.333333333333333]

    • 第一个维度的均值计算:(2.0 * 1.0 + 4.0 * 2.0) / (1.0 + 2.0) ≈ 10 / 3 ≈ 3.333333333333333
    • 第二个维度的均值计算:(3.0 * 1.0 + 6.0 * 2.0) / (1.0 + 2.0) ≈ 15 / 3 = 5.0
    • 第三个维度的均值计算:(5.0 * 1.0 + 7.0 * 2.0) / (1.0 + 2.0) ≈ 19 / 3 ≈ 6.333333333333333
  • 带权重的方差:[2.0, 4.5, 2.0]

    • 第一个维度的方差计算:((2.0 - 3.333333333333333)² * 1.0 + (4.0 - 3.333333333333333)² * 2.0) / (1.0 + 2.0) ≈ 2.0
    • 第二个维度的方差计算:((3.0 - 5.0)² * 1.0 + (6.0 - 5.0)² * 2.0) / (1.0 + 2.0) ≈ 4.5
    • 第三个维度的方差计算:((5.0 - 6.333333333333333)² * 1.0 + (7.0 - 6.333333333333333)² * 2.0) / (1.0 + 2.0) ≈ 2.0
  • 不带权重的均值:[3.0, 4.5, 6.0]

    • 第一个维度的均值计算:(2.0 + 4.0) / 2 = 3.0
    • 第二个维度的均值计算:(3.0 + 6.0) / 2 = 4.5
    • 第三个维度的均值计算:(5.0 + 7.0) / 2 = 6.0
  • 不带权重的方差:[2.0, 4.5, 2.0]

    • 第一个维度的方差计算:((2.0 - 3.0)² + (4.0 - 3.0)²) / 2 = 2.0
    • 第二个维度的方差计算:((3.0 - 4.5)² + (6.0 - 4.5)²) / 2 = 4.5
    • 第三个维度的方差计算:((5.0 - 6.0)² + (7.0 - 6.0)²) / 2 = 2.0
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark SQL是Apache Spark中的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL可以让用户使用SQL语句来查询数据,也可以让用户使用DataFrame API来进行数据处理和分析。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等。Spark SQL还提供了一些高级功能,如支持用户自定义函数、支持分布式机器学习算法等。Spark SQL的目标是让用户能够方便地使用Spark进行数据处理和分析,同时提供高性能和可扩展性。 ### 回答2: Spark SQL是一个基于Spark平台的关系型数据处理引擎,它支持使用SQL语句和数据框架操作数据,可以轻松处理结构化和半结构化的数据。它可以从多个数据源中读取数据,包括Hive、JSON、Parquet、ORC等。通过Spark SQL,用户可以方便地使用SQL查询语言来分析和处理数据,大大降低了开发和组织数据流的难度。 Spark SQL主要有两种执行模式:SQL查询和DataFrame操作。其中SQL查询基于Hive的SQL语法解析器,支持HiveQL中的大多数语言特性(如UDF、窗口函数等)。在执行计划生成时,Spark SQL采用了Spark的计算引擎,支持各种Spark算子的优化,以便最大程度地提高查询性能。 另一种操作模式是使用DataFrame API,它可以灵活地进行数据转换和处理,并提供了类似于SQL的语法。与SQL查询不同,DataFrame API通过静态检查和编译器优化来避免由SQL查询引起的语法错误和潜在性能问题。 除了这两种基本的操作模式外,Spark SQL还提供了一些高级特性,如嵌套查询、表和视图、共享变量等。这些特性扩展了Spark SQL的功能,使得它可以更加灵活地进行数据处理和查询。 Spark SQL是Spark的重要组成部分,它在数据存储和处理方面提供了很多便利。通过最大程度地利用Spark引擎的优势,Spark SQL能够处理海量数据,并将其转换为有用的信息。这使得Spark SQL成为实现数据分析、机器学习和人工智能的重要工具之一。 ### 回答3: Spark SQL是一种基于Spark平台的数据处理引擎,它提供了高度优化的查询引擎和优秀的支持SQL语句的API。它允许用户使用SQL语句查询来处理大规模数据集,同时仍然支持复杂数据类型和计算。Spark SQL支持数据源,包括Parquet,Avro,JSON等一系列结构化的和半结构化的数据源。 Spark SQL在历史上是一个单独的模块,在Spark 2.0之后,它已经成为Spark的核心组件之一,可以直接在Spark核心API中使用,包括作为一个RDD库或DataFrame/DataSet的API。 Spark SQL的优点如下: 1. 它可以向受过传统SQL培训的用户展示更高级别,更强大的API。 2. 它提供数据集和RDD的良好互操作性。Spark SQL可以通过未被优化的RDD/DataSet API访问同一数据。 3. 它支持Spark的执行引擎以加速查询处理。 使用Spark SQL的时候,可以根据需要选择编程语言,如Scala,Java,Python,SQL等。在Spark核心API中,Spark SQL提供了两种API来处理结构化数据: 1. DataFrame API:DataFrame是具有许多操纵数据的功能的分布式数据集,类似于数据库中的表。 2. Dataset API:Dataset是Scala和Java API,它是类型安全的,并且提供与RDD API相同的API,但比RDD具有更好的性能和可读性。 Spark SQL是Spark生态系统中重要的组成部分之一。在处理大规模数据时,使用Spark SQL可以方便地利用Spark的强大功能,提高处理效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值