Java移动推荐算法提取特征值_特征提取(机器学习数据预处理)

特征提取(机器学习数据预处理)

特征提取与特征选择都是数据降维的技术,不过二者有着本质上的区别;特征选择能够保持数据的原始特征,最终得到的降维数据其实是原数据集的一个子集;而特征提取会通过数据转换或数据映射得到一个新的特征空间,尽管新的特征空间是在原特征基础上得来的,但是凭借人眼观察可能看不出新数据集与原始数据集之间的关联。

这里介绍2种常见的特征提取技术:

1)主成分分析(PCA)

2)线性判别分析(LDA)

1.主成分分析(PCA)

一种无监督的数据压缩,数据提取技术,通常用于提高计算效率,帮助降低”维度灾难“,尤其是当模型不适于正则化时。

PCA是一种线性转换技术,其目标是在高纬度数据中找到最大方差的方向,并将数据映射到不大于原始数据的新的子空间上。(所谓数据方差最大的方向即数据沿着该方向的分布最分散)

PCA算法的流程:

1)对原始d维数据集做标准化处理;

2)构造样本的协方差矩阵;

3)计算协方差矩阵的特征值和相应的特征向量;

4)选择前k个最大特征值对应的特征向量,其中$k\leq d$;

5)通过前k个特征向量构建映射矩阵W;

6)通过映射矩阵W将d维的原始数据转换为k维的特征子空间。

标准化处理之前的内容有,这里不再赘述;

1.1构造协方差矩阵

公式:

$\sigma_{jk}=\frac{1}{n}\sum_{i=1}^{n}(x_{j}^{(i)}-u_{j})(x_{k}^{(i)}-u_{k})$

n代表数据的总个数&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值