数据预处理 与 词向量

数据预处理 与 词向量

 

特征降维与 特征度量

在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为 “维数灾难”。

 

 

1 线性判别分析 LDA

给定训练样例集,设法将样例投影到一条直线上,

使得:同类样例的投影点尽可能的接近,异类样本点尽可能的远离,

通过让同类样例的投影点的协方差尽可能小,使类中心之间的距离尽可能大,则可满足以上求解需求。

 

低维嵌入

 

通过某种数学变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得更为容易

要求原始空间中样本之间的距离在低维空间中得以保持,即得到“多维缩放”(MDS

 

2 主成成分分析 PCA

如何用一个超平面对所有样本进行恰当的表达

最近重构性:样本点到这个超平面的距离都足够近

最大可分性: 样本点在这个超平面上的投影能尽可能的分开

 

3 核化线性降维

非线性降维用于寻找恰当的低维嵌入,通过对原始属性空间中的样本点先进行核函数映  射到高维特征空间,再在特征空间中进行线性降维

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值