特征组合也称特征交叉(Feature Crosses),即不同类型或者不同维度特征之间的交叉组合,其主要目的是提高对复杂关系的拟合能力。在特征工程中,通常会把一阶离散特征两两组合,构成高阶组合特征。可以进行组合的特征包括离散特征和连续特征,但是连续特征需要进行一定的处理后才可以进行特征组合。
为了便于理解,可以将特征组合理解为两个离散特征交叉合并,举个例子:特征 A 有 m 个类别,特征 B 有 n 个类别,则特征 A 和特征 B 的组合就是将特征 A、B 中的各个类别两两组合,其维度为 m*n。很明显,特征组合存在隐患——当一个特征的类别非常多的时候会出现组合特征向量维度极高的情况,这个时候还需要用到降维处理。
目录
1.为什么要进行特征组合?
在图 1 和图 2 中,想象一下:
- 蓝点代表生病的树。
- 橙色点代表健康的树木。