Spark ML中的Transformer源码解析

Spark ML中的Transformer源码解析

目录

1. 源码加上中文注释

/**
 * :: DeveloperApi ::
 * 抽象类,用于将一个数据集转换为另一个数据集的transformers。
 */
@DeveloperApi
abstract class Transformer extends PipelineStage {

  /**
   * 使用可选参数对数据集进行转换
   * @param dataset 输入数据集
   * @param firstParamPair 第一个参数对,覆盖嵌入参数
   * @param otherParamPairs 其他参数对,覆盖嵌入参数
   * @return 转换后的数据集
   */
  @Since("2.0.0")
  @varargs
  def transform(
      dataset: Dataset[_],
      firstParamPair: ParamPair[_],
      otherParamPairs: ParamPair[_]*): DataFrame = {
    val map = new ParamMap()
      .put(firstParamPair)
      .put(otherParamPairs: _*)
    transform(dataset, map)
  }

  /**
   * 使用提供的参数映射作为附加参数对数据集进行转换。
   * @param dataset 输入数据集
   * @param paramMap 附加参数,覆盖嵌入参数
   * @return 转换后的数据集
   */
  @Since("2.0.0")
  def transform(dataset: Dataset[_], paramMap: ParamMap): DataFrame = {
    this.copy(paramMap).transform(dataset)
  }

  /**
   * 转换输入数据集。
   */
  @Since("2.0.0")
  def transform(dataset: Dataset[_]): DataFrame

  override def copy(extra: ParamMap): Transformer
}

2. 多种主要用法及其代码示例

  1. 使用可选参数对数据集进行转换:
val transformedData = transformer.transform(dataset, paramPair1, paramPair2, paramPair3)
  1. 使用提供的参数映射作为附加参数对数据集进行转换:
val paramMap = ParamMap(param1 -> value1, param2 -> value2)
val transformedData = transformer.transform(dataset, paramMap)
  1. 转换输入数据集:
val transformedData = transformer.transform(dataset)

3. 源码适用场景

Transformer是Spark ML中的抽象类,用于将一个数据集转换为另一个数据集。它适用于以下场景:

  • 需要对数据集进行一系列的转换操作,例如特征提取、特征转换等。
  • 需要将转换操作组合成一个整体,并能够重复使用。

4. 官方链接

Apache Spark - Transformer

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BigDataMLApplication

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值