为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种离散特征,表1.2 是语言和类型对点击的影响。为了提高拟合能力, 语言和类型可以组成二阶特征,表1.3 是语言和类型的组合特征对点击的影响。
我认为用户ID一般应该是不需要组合的,这个东西实在想不到有什么理由需要组合到特征向量中,如果发现了,我再来说明。
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种离散特征,表1.2 是语言和类型对点击的影响。为了提高拟合能力, 语言和类型可以组成二阶特征,表1.3 是语言和类型的组合特征对点击的影响。
我认为用户ID一般应该是不需要组合的,这个东西实在想不到有什么理由需要组合到特征向量中,如果发现了,我再来说明。