谈组合特征以及如何处理高维组合特征

在机器学习项目中,我们提取出特征之后,进行建模分类回归,可能会发现效果比较差,这很有可能是在既有地特征空间这些样本的可分性较差,比如我们使用线性模型,但样本在既有特征空间是线性不可分的。这是我们可以采取组合特征的方法,让样本可分性提升。例如我们要对一堆方框进行分类,原来的特征有[HeightWidth],我们可以将HeightWidth进行相乘组合得到面积S,那么现在特征向量变为[Width,Height,S],这样做就将一阶特征变为了二阶特征,提高了特征的非线性表达能力,学术语叫做对非线性规律进行编码,这样做使得我们在不改变模型的前提下便可学习到非线性信息,会有助于我们进行分类。除了特征两两相乘,还有其他的合成方法,见下文。

合成特征的方法
  1. 将一个特征与其本身或其他特征相乘(称为特征组合)
  2. 两个特征相除
  3. 对连续特征进行分桶,以分为多个区间分箱,然后进行离散形式的组合。
特征相乘

其中特征相乘有很多种形式,可以是特征自身与自身相乘,也可以是与其他若干个特征相乘。

特征分桶

特征分桶是根据特征值进行区间分割,然后离散化。比如年龄,
1——20岁 -> [1, 0, 0]
21——40岁 -> [0, 1, 0]
41——60岁 -> [0, 0, 1]
性别:
男 -> [1, 0]
女 -> [0, 1]
类似于独热编码,然后对特征进行组合,组合之后依然还是独热编码。通过这种两两组合,衍生出大量的特征,增强了表征能力和泛化能力。

如何处理高维组合特征

经过以上几种方法进行特征组合之后,我们会得到一个很高维的特征矩阵,直接处理会带来很大的计算负担,我们可以采取降维,矩阵分解或者特征筛选的方法得到具备绝大部分信息的几个特征进行训练。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值