学习笔记：使用Spark进行特征向量统计分析

最新推荐文章于 2024-05-17 18:09:22 发布

南城、每天都要学习呀

最新推荐文章于 2024-05-17 18:09:22 发布

阅读量125

点赞数

分类专栏： spark mllib 机器学习文章标签：学习笔记 spark

本文链接：https://blog.csdn.net/2301_77331760/article/details/131743064

版权

spark mllib 机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

题目：

在给定的数据集中，计算带权重和不带权重的特征向量的均值和方差。

数据：

我们有两个样本，每个样本由一个三维特征向量和一个权重组成。具体数据如下：

第一个样本的特征向量是 [2.0, 3.0, 5.0]，权重为 1.0。
第二个样本的特征向量是 [4.0, 6.0, 7.0]，权重为 2.0。

代码实现：

import org.apache.spark.SparkConf
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.stat.Summarizer._
import org.apache.spark.sql.SparkSession

object SparkTask3 {
  def main(args: Array[String]): Unit = {

    // 创建Spark配置对象
    val conf = new SparkConf().setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).appName("task3").getOrCreate()

    import spark.implicits._

    // 创建数据集DataFrame
    val data = Seq(
      (Vectors.dense(2.0, 3.0, 5.0), 1.0),
      (Vectors.dense(4.0, 6.0, 7.0), 2.0)
    )
    val df = data.toDF("features", "weight")

    // 使用带权重的均值和方差方法计算
    val (meanVal, varianceVal) = df.select(metrics("mean", "variance")
      .summary($"features", $"weight").as("summary"))
      .select("summary.mean", "summary.variance")
      .as[(Vector, Vector)].first()

    println(s"with weight: mean = ${meanVal}, variance = ${varianceVal}")

    // 使用不带权重的均值和方差方法计算
    val (meanVal2, varianceVal2) = df.select(mean($"features"), variance($"features"))
      .as[(Vector, Vector)].first()

    println(s"without weight: mean = ${meanVal2}, sum = ${varianceVal2}")

    spark.stop()
  }
}

scala复制代码

笔记说明：

首先导入了要使用的Spark相关库和类。
然后创建了一个Spark配置对象，并通过SparkSession构建器创建了一个SparkSession。
在代码中，定义了两个样本，分别由一个三维特征向量和一个权重组成。特征向量和权重的具体数值分别给出。
通过Seq集合将数据转换为DataFrame，并命名特征向量列为"features"，权重列为"weight"。
使用metrics函数计算带权重的均值和方差。通过summary方法，将特征向量和权重列作为参数，并将计算结果命名为"summary"。
从结果中选择 "summary.mean" 和 "summary.variance" 列，并将其转换为两个向量类型的值。
打印带权重的均值和方差结果。
使用不带权重的mean和variance方法计算特征向量的均值和方差。
将结果转换为两个向量类型的值。
打印不带权重的均值和方差结果。
停止SparkSession。

结果解释：

带权重的均值：[3.333333333333333, 5.0, 6.333333333333333]
- 第一个维度的均值计算：(2.0 * 1.0 + 4.0 * 2.0) / (1.0 + 2.0) ≈ 10 / 3 ≈ 3.333333333333333
- 第二个维度的均值计算：(3.0 * 1.0 + 6.0 * 2.0) / (1.0 + 2.0) ≈ 15 / 3 = 5.0
- 第三个维度的均值计算：(5.0 * 1.0 + 7.0 * 2.0) / (1.0 + 2.0) ≈ 19 / 3 ≈ 6.333333333333333
带权重的方差：[2.0, 4.5, 2.0]
- 第一个维度的方差计算：((2.0 - 3.333333333333333)² * 1.0 + (4.0 - 3.333333333333333)² * 2.0) / (1.0 + 2.0) ≈ 2.0
- 第二个维度的方差计算：((3.0 - 5.0)² * 1.0 + (6.0 - 5.0)² * 2.0) / (1.0 + 2.0) ≈ 4.5
- 第三个维度的方差计算：((5.0 - 6.333333333333333)² * 1.0 + (7.0 - 6.333333333333333)² * 2.0) / (1.0 + 2.0) ≈ 2.0
不带权重的均值：[3.0, 4.5, 6.0]
- 第一个维度的均值计算：(2.0 + 4.0) / 2 = 3.0
- 第二个维度的均值计算：(3.0 + 6.0) / 2 = 4.5
- 第三个维度的均值计算：(5.0 + 7.0) / 2 = 6.0
不带权重的方差：[2.0, 4.5, 2.0]
- 第一个维度的方差计算：((2.0 - 3.0)² + (4.0 - 3.0)²) / 2 = 2.0
- 第二个维度的方差计算：((3.0 - 4.5)² + (6.0 - 4.5)²) / 2 = 4.5
- 第三个维度的方差计算：((5.0 - 6.0)² + (7.0 - 6.0)²) / 2 = 2.0

南城、每天都要学习呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记：使用Spark进行特征向量统计分析

带权重的均值：[3.333333333333333, 5.0, 6.333333333333333]我们有两个样本，每个样本由一个三维特征向量和一个权重组成。在给定的数据集中，计算带权重和不带权重的特征向量的均值和方差。不带权重的均值：[3.0, 4.5, 6.0]不带权重的方差：[2.0, 4.5, 2.0]带权重的方差：[2.0, 4.5, 2.0]
复制链接

扫一扫