数据预处理与词向量

最新推荐文章于 2024-02-16 18:08:54 发布

kwang8090

最新推荐文章于 2024-02-16 18:08:54 发布

阅读量533

点赞数

分类专栏： machine learning 文章标签：深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangxiaoxiaodeer/article/details/112059784

版权

数据预处理中的特征降维是为了解决高维数据带来的问题，如线性判别分析（LDA）和主成成分分析（PCA）用于线性降维，核化线性降维处理非线性问题。文本特征部分介绍了词嵌入技术，如词频、TF-IDF和词向量模型，如word2vec和GloVe，它们通过捕获词的语义信息改进了传统词袋模型。

摘要由CSDN通过智能技术生成

数据预处理与词向量

特征降维与特征度量

在高维情形下出现的数据样本稀疏、距离计算困难等问题，是所有机器学习方法共同面临的严重障碍，被称为 “维数灾难”。

1 线性判别分析 LDA

给定训练样例集，设法将样例投影到一条直线上，

使得：同类样例的投影点尽可能的接近，异类样本点尽可能的远离，

通过让同类样例的投影点的协方差尽可能小，使类中心之间的距离尽可能大，则可满足以上求解需求。

低维嵌入

通过某种数学变换将原始高维属性空间转变为一个低维“子空间”，在这个子空间中样本密度大幅提高，距离计算也变得更为容易

要求原始空间中样本之间的距离在低维空间中得以保持，即得到“多维缩放”（MDS

2 主成成分分析 PCA

如何用一个超平面对所有样本进行恰当的表达

最近重构性：样本点到这个超平面的距离都足够近

最大可分性：样本点在这个超平面上的投影能尽可能的分开

3 核化线性降维

非线性降维用于寻找恰当的低维嵌入，通过对原始属性空间中的样本点先进行核函数映射到高维特征空间，再在特征空间中进行线性降维

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。