特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取,特征构建,特征选择等模块。
特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果“工欲善其事,必先利其器”,特征工程可以理解为利其器的过程。
特征工程是个过程,包括三个子模块:特征构建- >特征提取 - >特征选择
特征构建:根据原始数据构建新的特征,需要找出一些具有物理意义的特征。
特征提取:自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义或核的特征。例如Gabor,几何特征,纹理等。
特征选择:从特征 集合中挑选一组最具统计意义的特征子集,把无关的特征删掉,从而达到降维的效果