谈组合特征以及如何处理高维组合特征

最新推荐文章于 2023-05-15 21:23:32 发布

一颗磐石

最新推荐文章于 2023-05-15 21:23:32 发布

阅读量806

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Just_do_myself/article/details/115488522

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在机器学习项目中，我们提取出特征之后，进行建模分类回归，可能会发现效果比较差，这很有可能是在既有地特征空间这些样本的可分性较差，比如我们使用线性模型，但样本在既有特征空间是线性不可分的。这是我们可以采取组合特征的方法，让样本可分性提升。例如我们要对一堆方框进行分类，原来的特征有[Height，Width]，我们可以将Height和Width进行相乘组合得到面积S,那么现在特征向量变为[Width，Height，S]，这样做就将一阶特征变为了二阶特征，提高了特征的非线性表达能力，学术语叫做对非线性规律进行编码，这样做使得我们在不改变模型的前提下便可学习到非线性信息，会有助于我们进行分类。除了特征两两相乘，还有其他的合成方法，见下文。

合成特征的方法

将一个特征与其本身或其他特征相乘（称为特征组合）
两个特征相除
对连续特征进行分桶，以分为多个区间分箱，然后进行离散形式的组合。

特征相乘

其中特征相乘有很多种形式，可以是特征自身与自身相乘，也可以是与其他若干个特征相乘。

特征分桶

特征分桶是根据特征值进行区间分割，然后离散化。比如年龄，
1——20岁 -> [1, 0, 0]
21——40岁 -> [0, 1, 0]
41——60岁 -> [0, 0, 1]
性别：
男 -> [1, 0]
女 -> [0, 1]
类似于独热编码，然后对特征进行组合，组合之后依然还是独热编码。通过这种两两组合，衍生出大量的特征，增强了表征能力和泛化能力。

如何处理高维组合特征

经过以上几种方法进行特征组合之后，我们会得到一个很高维的特征矩阵，直接处理会带来很大的计算负担，我们可以采取降维，矩阵分解或者特征筛选的方法得到具备绝大部分信息的几个特征进行训练。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
谈组合特征以及如何处理高维组合特征

在机器学习项目中，我们提取出特征之后，进行建模分类回归，可能会发现效果比较差，这很有可能是在既有地特征空间这些样本的可分性较差，比如我们使用线性模型，但样本在既有特征空间是线性不可分的。这是我们可以采取组合特征的方法，让样本可分性提升。例如我们要对一堆方框进行分类，原来的特征有[Height，Width]，我们可以将Height和Width进行相乘组合得到面积S,那么现在特征向量变为[Width，Height，S]，这样做就将一阶特征变为了二阶特征，提高了特征的非线性表达能力，学术语叫做对非线性规律进行编码
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。