1、什么是特征交叉?
特征交叉是通过组合两个或更多个特征而形成的合成特征, 通过特征组合的方式增加特征的维度,以求得更好的训练效果。
如下图,无法用一条直线来对两组数据进行分类。
但是如果我们如果增加一个组合特征x1x2,得到分类图如下,下图我们就可以很好对两个类型的数据进行分类了。
2、如何进行有效组合特征?
2.1 针对数值型的特征一般直接进行相乘。例如
[A X B]
: 2个特征相乘形成的组合特征[A x B x C x D x E]
: 5个特征相乘形成的组合特征[A x A]
: 通过单个特征的平方形成的组合特征
2.2 对于one-hot编码的格式特征同样可以组合,例如:
在房价预估中可能涉及到经纬度特征,通过分档编程下面:
binned_latitude(lat) = [ 0 < lat <= 10 10 < lat <= 20 20 < lat <= 30 ] binned_longitude(lon) = [ 0 < lon <=