特征向量降维常见的几种方法

最新推荐文章于 2024-05-16 13:34:37 发布

kanbuqinghuanyizhang

最新推荐文章于 2024-05-16 13:34:37 发布

阅读量1.3w

点赞数

分类专栏：特征处理机器学习文章标签：降维特征处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kanbuqinghuanyizhang/article/details/81411300

版权

高纬度特征带来的问题

这里就简单描述下。
通常我们会使用特征训练模型或特征矩阵求相似度。高维的特征带来的计算成本非常大，甚至完不成。同时一般高维的特征都比较稀疏，直接使用高维的特征训练需要样本量很大，难以拟合，模型效果不好。

训练模型时特征的筛选

通常我们训练模型时，会人为挑选特征，控制每类特征维度范围，比如年龄我们使用one-hot的方式表示，分成0-10，10-20...，>100这几个段，也就是将年龄映射成了11维，相比如果每个年龄表示一维，这也是一种降维的方法。

还有一种降维的方式是，假如我们人为不确定那种特征的好坏，我们可以将初选的所有特征(所有维度)哪去训练，将得到的模型中权重为0或与0相差甚微的特征(向量去掉)，再重新训练，一直到比较合适为止。

工作中常用的两种降维方式

除上诉几种简单的降维方法。工作中还经常遇到两种情况需要降低特征维度。

embedding

拿用户来说，好的产品活跃用户非常多(如微信)，假如用户数超过10亿。假设我们需要用用户做协同过滤，此时就需要知道用户间的相似度。不管使用哪种相似度计算方法(余弦，jaccard等等)，我们首选要得到的是等维度的用户向量。假设我们通过某种办法(下面会详细描述)将每个用户都embedding成了128维的向量，我们就可以拿这个用户向量矩阵通过计算框架(如：faiss)去计算每个用户topN的相似用户及相似度。

又假如我们要把用户向量选做特征参与gbdt的训练，此时也是要首先获取用户的向量表示。

最低0.47元/天解锁文章

kanbuqinghuanyizhang

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
特征向量降维常见的几种方法

高纬度特征带来的问题这里就简单描述下。通常我们会使用特征训练模型或特征矩阵求相似度。高维的特征带来的计算成本非常大，甚至完不成。同时一般高维的特征都比较稀疏，直接使用高维的特征训练需要样本量很大，难以拟合，模型效果不好。训练模型时特征的筛选通常我们训练模型时，会人为挑选特征，控制每类特征维度范围，比如年龄我们使用one-hot的方式表示，分成0-10，10-20...，&amp;gt;10...
复制链接

扫一扫

专栏目录

kanbuqinghuanyizhang CSDN认证博客专家 CSDN认证企业博客

码龄9年

47: 原创

19万+: 周排名

102万+: 总排名

11万+: 访问

: 等级

1121: 积分

19: 粉丝

52: 获赞

13: 评论

190: 收藏

私信

关注

热门文章

分类专栏

最新评论

faiss简介及示例
famu: L2正则化之后就等效了
faiss简介及示例
weixin_37527852: 请问windows上是不是不能安装gpu版本的，conda搜索不到faiss-gpu的包。
如何处理InterruptedException异常
微笑smiled: 没特别懂线程异常在catch (InterruptedException e) 中加Thread.currentThread.interrupt(); 是为了终止线程？就是将线程restore的意思了？是什么意思
如何处理InterruptedException异常
喜欢敲代码的Apollo: 我在大佬的评论区瑟瑟发抖,希望能引起注意并回访我的博客哈哈
csdn markdown_图片缩放
恋喵大鲤鱼: 很多种情况都没有说

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。