1.1 机器学习定义
一个计算机程序被称为可以学习,是指它能够针对某个任务T(Task)和某个性能指标P(Performance Measure),从经验E(Experience)中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。
——Tom Mitshell
1.2 基于学习方式的分类
-
监督学习(Supervised learning)
每一个训练数据都有对应的标签
算法:支持向量机(SVM)、人工神经网络(ANN)、深度神经网络(DNN)基于标签属性可分为分类(标签离散)和回归(标签连续)问题。实际上分类和回归问题界限模糊,离散和连续可相互转化。
-
无监督学习(Unsupervised learning)
所有训练数据都没有对应的标签
算法:聚类、EM算法、主成分分析(PCA) -
半监督学习(Semi-Supervised learning)
训练数据中只有一部分有标签,另一部分没有标签 -
强化学习(增强学习、激励学习)(Reinforcement learning)
也使用未标记的数据,但是强化学习通过激励与惩罚信号判断是否距离目标越来越近。
强化学习是一个学习+决策的过程,有和环境交互的能力。
1.3 算法过程
- 特征提取、特征选择
- 不同算法对特征空间进行划分
- 得到不同结果
1.4 没有免费午餐定理
任何一个预测函数,如果不对数据在特征空间的先验分布有一定假设,那么表现好与表现不好的情况一样多。
- 不能片面夸大该定理作用
- 机器学习的本质是对有限的已知数据,在复杂的高维特征空间中预测未知的样本,因此再好的算法也有犯错的风险。
- 没有能适用所有情况的最好算法,需要结合实际选择算法。