目录
前言
机器学习是什么?它是研究关于“学习算法”(能从数据中学习其背后的规律的算法)的一门学科。深度学习特指基于深层神经网络模型和方法的机器学习。
一、绪论
1.基本术语
样本:也称为“示例”,是关于一个事件或对象的描述。可以用特征向量表示。
样本空间:也称为“输入空间”或“属性空间”。通常用花式大写的X 表示。
数据集:数据集通常用集合来表示。
标记:研究学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为“标记”。标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的 Y。标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)。根据训练数据是否有标记信息,学习任务可划分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。
模型:选用某个机器学习算法,让其在训练集上进行“学习”,然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。
泛化:模型适用于新样本的能力称为“泛化”能力。
2.假设空间
3.归纳偏好
二、模型评估与选择
1.经验误差与过拟合
错误率:E = m*a ,其中 m 为样本个数,a 为分类错误样本个数。
精度:精度 =1-错误率。
误差:学习器的实际预测输出与样本的真实输出之间的差异。
泛化误差:学习器在新样本上的误差。
经验误差:学习器在训练集上的误差,又称为“训练误差”。
过拟合:由于学习能力过于强大,把训练样本所包含的不太一般的特性都学到了,导致泛化性下降。无法彻底避免。
欠拟合:由于学习能力低下,对训练样本的一般性质尚未学好,比较容易克服。
2.评估方法
留出法:将数据集划分为两个互斥的集合,一个作为训练集,另一个作为测试集。训练集和测试集的划分采用“分层采样”,多次随机划分、重复进行实验评估后取平均值。
交叉验证法:将数据集划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的集合作为测试集。如此进行k次训练和测试,返回k次测试结果的均值。
自助法:对含m个样本的数据集有放回采样m次,得到训练集,未被采样到的样本作为测试集。
3.性能度量
错误率与精度
查准率:被学习器预测为正例的样例中是真正例的比例。
查全率:所有正例当中被学习器预测为正例的比例。
一般来说,查全率越高,查准率越低,而查准率越高,查全率则越低。
P-R图:学习器在样本总体上的查全率和查准率。若一个学习器的P-R曲线被另一个学习器的曲线包围,则后者性能优于前者。
F1:综合考察查全率和查准率的度量。