1.1 机器学习的概念:机器学习是指从有限的观测数据中学习出具有一般性的规律,并利用这些规律对未知数据进行预测的方法。机器学习可以分为监督学习,无监督学习和强化学习。
传统的机器学习主要关注于如何学习一个预测模型。一般需要首先将数据表示为一组特征(feature),然后将这些特征输入到预测模型,并输出预测结果。这类机器学习可以看作是浅层学习,其特征主要依靠人工经验或特征转换的方法来抽取。在实际任务中使用机器学习模型的步骤如下图所示:
图1.机器学习模型的使用流程
其中,1.数据预处理:去噪声,标准化;2.特征提取:从原始数据中提取有效特征,例如图像边缘和尺度不变特征变换等; 3.特征转换:特征加工,升维和降维等; 4. 预测:核心部分,学习一个函数进行预测。
在机器学习的过程中,特征工程问题十分重要,它很大程度上决定了任务的性能上限。一般来说在实际任务中,不同模型的性能的相差不多,而是前三步的处理对准确性起着关键的作用。
1.2 表示学习的概念: 将输入信息转换为有效的特征,或者更一般性的称为表示。如果有一种算法可以自动地学习出有效的特征,并提高最终机器