第1章 绪论
1.1 引言
机器学习主要研究从数据中产生模型的算法,即学习算法。
1.2 基本术语
数据集 | 数据记录的集合 |
示例或样本 | 每条记录是关于一个事件或对象的描述 |
属性或特征 | 反映事件或对象在某方面的表现或性质的事项 |
属性值 | 属性上的取值 |
属性空间 | 属性张成的空间,又称样本空间或输入空间 |
特征向量 | 一个示例,空间中的每个点对应一个坐标向量 |
学习或训练 | 从数据中学得模型的过程 |
训练数据 | 训练过程中使用的数据 |
训练样本 | 训练过程中使用的样本 |
训练集 | 训练样本组成的集合 |
假设 | 学得模型对应了关于数据的某种潜在的规律 |
真相或真实 | 潜在规律自身 |
学习器 | 模型,可看作学习算法在给定数据和参数空间上的实例化 |
标记 | 训练样本的结果信息 |
样例 | 拥有了标记信息的示例 |
标记空间或输出空间 | 所有标记的集合 |
分类 | 模型预测的是离散值 |
回归 | 模型预测的是连续值 |
测试 | 使用学得模型进行预测的过程 |
测试样本 | 被预测的样本 |
监督学习 | 训练数据拥有标记信息,例如分类、回归 |
无监督学习 | 训练数据没有标记信息,例如聚类 |
泛化能力 | 学得模型适用于新样本的能力 |
1.3 假设空间
学习过程可看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称为偏好。
第2章 模型评估与选择
2.1 经验误差与过拟合
错误率 | 分类错误的样本数占样本总数的比例 |
精度 | 1-错误率 |
误差 | 学习器的实际预测输出与样本的真实输出之间的差异 |
训练误差或经验误差 | 学习器在训练集上的误差 |
泛化误差 | 在新样本上的误差 |
过拟合 | 亦称“过配”,把训练样本自身的一些特点,当作了所有潜在样本都会具有的一般性质 |
欠拟合 | 亦称“欠配”,指对训练样本的一般性质尚未学好 |
模型选择 | 该选用哪一个学习算法,使用哪一种参数配置 |
2.2 评估方法
2.3 性能度量
性能度量 | 衡量模型泛化能力的评价标准 |
错误率 | 分类错误的样本数占样本总数的比例 |
精度 | 分类正确的样本数占样本总数的比例 |
查准率 | 亦称“准确率”,例如信息检索中,检索出的信息中有多少比例是用户感兴趣的 |
查全率 | 亦称“召回率”,例如用户感兴趣的信息中有多少被检索出来了 |
F1 | 表达出对查准率/查全率的不同偏好 |
P-R曲线 | 以查准率为纵轴、查全率为横轴作图,得到查准率-查全率曲线 |