一、定义
特征多项式是通过对原始特征进行幂次运算、交叉运算等生成的新特征。假设我们有一个特征向量 x=[x1,x2,…,xn],那么生成的多项式特征可以包括 xi2、xixj、xj3 等等。
二、优点
- 增强模型表达能力:通过引入非线性特征,模型可以更好地拟合复杂数据。
- 捕获交叉作用:交叉特征能够捕捉特征之间的相互作用,例如,特征 𝑥1和 𝑥2的组合。
三、缺点
- 维度灾难:随着特征数量和多项式的阶数增加,生成的特征数量迅速增多,可能导致计算复杂度和存储需求增加。
- 过拟合风险:多项式特征可能导致模型过拟合,尤其是在样本数量较少时。
四、特征多项式和线性组合的区别
-
线性组合
- 只考虑特征的线性关系。(注:线性关系是指两个变量之间的关系可以用一条直线表示)
- 形式为 𝑦=𝑤1𝑥1+𝑤2𝑥2+…+𝑤𝑛𝑥𝑛是线性模型的标准形式,表示特征之间没有更高次或交叉项的影响。
-
特征多项式
- 扩展了特征之间的关系,考虑了多项式形式的关系。
- 例如:二次多项式特征可以表示为:y=w1x1+w2x2+w3x12+w4x22+w5x1x2+…,这包括了特征的平方和特征之间的交互作用。
-
总结
- 特征多项式是在原始特征基础上,通过引入更高次和交叉项,来丰富模型表达能力的方式。