经典机器学习方式是以人类的先验知识将raw数据预处理成feature,然后对feature进行分类。分类结果十分取决于feature的好坏。所以过去的机器学习专家将大部分时间花费在设计feature上。那时的机器学习有个更合适的名字叫feature engineering 。
后来人们发现,利用神经网络,让网络自己学习如何抓取feature效果更佳。于是兴起了representation learning。这种方式对数据的拟合更加灵活。
特征工程(Feature Engineering)
“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是去设计输入变量X。
在机器学习时代,如果需要对Input进行表示,往往依靠的是领域专家手工提取特征并表示;依靠专家提取显示特征,工程量巨大。特征选取的好坏直接决定数据表示的质量,从而影响后续任务的性能。
表示学习(Representation Learning)
在深度学习时代,我们直接将Input输入模型,Input将自动转换成高效有意义的表示。采用模型自动学习数据的隐式特征,数据表示与后续任务往往是联合训练,不依赖专家经验,但需要较大的训练数据集。
2013年Bengio等人发表了关于表示学习的综述。Representation Learning: A Review and New Perspectives
Reference:https://blog.csdn.net/weixin_40449300/article/details/89941348