Apache Spark 机器学习 特征转换 2

PCA(Principal Component Analysis)

该转换器是主成分分析方法,是统计学领域中对数据样本的正相关的转换与分析方法,在一批具有相关性的数据样本的数据集中,删除多余的重复的相关变量,得到少量具有信息代表性的非相关变量的向量集,也就是,使用统计学分析方法对数据样本数据集执行降维处理。

如上所示,data定义一个数据样本向量集合,schema定义一个数据表格,df定义一个数据框架,pca训练一个主成分分析的模型,result是输出主成分分析的向量集。

如上所示,使用scala语言环境对pac的代码执行分析,输出非相关的向量集合,数据样本向量数据集的维度从5降低到3。

Polynomial Expansion

多项式分解是使用多项式系数的方式扩展原始特征向量集到n维度,其计算方程式是,假设,存在向量集合(x,y),则使用多项式扩展到3维的输出是,(x,x*x,x*x*x,y,y*x,y*x*x,y,y*x,y),依次类推,得出n维的多项式扩展对应的特征向量集。

如上所示,polyExpansion定义一个3维度的多项式特征扩展类,data是定义一个原始特征数据集,schema定义一个数据表格,df定义一个数据框架,polyDF是多项式扩展输出的向量集。

如上所示,使用scala语言环境执行维度是3的多项式展开的特征扩展。

DCT Discrete Cosine Transform)

离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数

如上所示,data定义输入的样本数据集,schema定义一个特征数据表格,df定义一个数据框架,dct定义一个离散余弦变换,dctF是执行转换的输出。

如上所示,使用scala语言环境执行离线余弦变换,其输出的维度是输入的维度的两倍。

(未完待续)

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangys2006

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值