题目:
在给定的数据集中,计算带权重和不带权重的特征向量的均值和方差。
数据:
我们有两个样本,每个样本由一个三维特征向量和一个权重组成。具体数据如下:
- 第一个样本的特征向量是 [2.0, 3.0, 5.0],权重为 1.0。
- 第二个样本的特征向量是 [4.0, 6.0, 7.0],权重为 2.0。
代码实现:
import org.apache.spark.SparkConf
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.stat.Summarizer._
import org.apache.spark.sql.SparkSession
object SparkTask3 {
def main(args: Array[String]): Unit = {
// 创建Spark配置对象
val conf = new SparkConf().setMaster("local[*]")
val spark = SparkSession.builder().config(conf).appName("task3").getOrCreate()
import spark.implicits._
// 创建数据集DataFrame
val data = Seq(
(Vectors.dense(2.0, 3.0, 5.0), 1.0),
(Vectors.dense(4.0, 6.0, 7.0), 2.0)
)
val df = data.toDF("features", "weight")
// 使用带权重的均值和方差方法计算
val (meanVal, varianceVal) = df.select(metrics("mean", "variance")
.summary($"features", $"weight").as("summary"))
.select("summary.mean", "summary.variance")
.as[(Vector, Vector)].first()
println(s"with weight: mean = ${meanVal}, variance = ${varianceVal}")
// 使用不带权重的均值和方差方法计算
val (meanVal2, varianceVal2) = df.select(mean($"features"), variance($"features"))
.as[(Vector, Vector)].first()
println(s"without weight: mean = ${meanVal2}, sum = ${varianceVal2}")
spark.stop()
}
}
scala复制代码
笔记说明:
- 首先导入了要使用的Spark相关库和类。
- 然后创建了一个Spark配置对象,并通过SparkSession构建器创建了一个SparkSession。
- 在代码中,定义了两个样本,分别由一个三维特征向量和一个权重组成。特征向量和权重的具体数值分别给出。
- 通过Seq集合将数据转换为DataFrame,并命名特征向量列为"features",权重列为"weight"。
- 使用
metrics
函数计算带权重的均值和方差。通过summary
方法,将特征向量和权重列作为参数,并将计算结果命名为"summary"。 - 从结果中选择 "summary.mean" 和 "summary.variance" 列,并将其转换为两个向量类型的值。
- 打印带权重的均值和方差结果。
- 使用不带权重的
mean
和variance
方法计算特征向量的均值和方差。 - 将结果转换为两个向量类型的值。
- 打印不带权重的均值和方差结果。
- 停止SparkSession。
结果解释:
-
带权重的均值:[3.333333333333333, 5.0, 6.333333333333333]
- 第一个维度的均值计算:(2.0 * 1.0 + 4.0 * 2.0) / (1.0 + 2.0) ≈ 10 / 3 ≈ 3.333333333333333
- 第二个维度的均值计算:(3.0 * 1.0 + 6.0 * 2.0) / (1.0 + 2.0) ≈ 15 / 3 = 5.0
- 第三个维度的均值计算:(5.0 * 1.0 + 7.0 * 2.0) / (1.0 + 2.0) ≈ 19 / 3 ≈ 6.333333333333333
-
带权重的方差:[2.0, 4.5, 2.0]
- 第一个维度的方差计算:((2.0 - 3.333333333333333)² * 1.0 + (4.0 - 3.333333333333333)² * 2.0) / (1.0 + 2.0) ≈ 2.0
- 第二个维度的方差计算:((3.0 - 5.0)² * 1.0 + (6.0 - 5.0)² * 2.0) / (1.0 + 2.0) ≈ 4.5
- 第三个维度的方差计算:((5.0 - 6.333333333333333)² * 1.0 + (7.0 - 6.333333333333333)² * 2.0) / (1.0 + 2.0) ≈ 2.0
-
不带权重的均值:[3.0, 4.5, 6.0]
- 第一个维度的均值计算:(2.0 + 4.0) / 2 = 3.0
- 第二个维度的均值计算:(3.0 + 6.0) / 2 = 4.5
- 第三个维度的均值计算:(5.0 + 7.0) / 2 = 6.0
-
不带权重的方差:[2.0, 4.5, 2.0]
- 第一个维度的方差计算:((2.0 - 3.0)² + (4.0 - 3.0)²) / 2 = 2.0
- 第二个维度的方差计算:((3.0 - 4.5)² + (6.0 - 4.5)²) / 2 = 4.5
- 第三个维度的方差计算:((5.0 - 6.0)² + (7.0 - 6.0)²) / 2 = 2.0