Spark ML中的Transformer源码解析
目录
1. 源码加上中文注释
/**
* :: DeveloperApi ::
* 抽象类,用于将一个数据集转换为另一个数据集的transformers。
*/
@DeveloperApi
abstract class Transformer extends PipelineStage {
/**
* 使用可选参数对数据集进行转换
* @param dataset 输入数据集
* @param firstParamPair 第一个参数对,覆盖嵌入参数
* @param otherParamPairs 其他参数对,覆盖嵌入参数
* @return 转换后的数据集
*/
@Since("2.0.0")
@varargs
def transform(
dataset: Dataset[_],
firstParamPair: ParamPair[_],
otherParamPairs: ParamPair[_]*): DataFrame = {
val map = new ParamMap()
.put(firstParamPair)
.put(otherParamPairs: _*)
transform(dataset, map)
}
/**
* 使用提供的参数映射作为附加参数对数据集进行转换。
* @param dataset 输入数据集
* @param paramMap 附加参数,覆盖嵌入参数
* @return 转换后的数据集
*/
@Since("2.0.0")
def transform(dataset: Dataset[_], paramMap: ParamMap): DataFrame = {
this.copy(paramMap).transform(dataset)
}
/**
* 转换输入数据集。
*/
@Since("2.0.0")
def transform(dataset: Dataset[_]): DataFrame
override def copy(extra: ParamMap): Transformer
}
2. 多种主要用法及其代码示例
- 使用可选参数对数据集进行转换:
val transformedData = transformer.transform(dataset, paramPair1, paramPair2, paramPair3)
- 使用提供的参数映射作为附加参数对数据集进行转换:
val paramMap = ParamMap(param1 -> value1, param2 -> value2)
val transformedData = transformer.transform(dataset, paramMap)
- 转换输入数据集:
val transformedData = transformer.transform(dataset)
3. 源码适用场景
Transformer
是Spark ML中的抽象类,用于将一个数据集转换为另一个数据集。它适用于以下场景:
- 需要对数据集进行一系列的转换操作,例如特征提取、特征转换等。
- 需要将转换操作组合成一个整体,并能够重复使用。