西瓜书:第一章(绪论)&第二章(模型评估与选择)

【基本术语】

  • 模型/学习器:泛指从数据中学得的结果;其实就是通过观察获得的“经验”,当遇到新事物,有一定的判断依据。

  • 示例/样本:一个事物或对象的描述,例如“一个西瓜”,也就是一条数据

  • 属性/特征:反映事物或对象在某方面的表现或性质的事项,例如一个西瓜的“色泽”、“敲声”

  • 属性值:属性上的取值,例如“青绿”、“乌黑”

  • 属性空间/样本空间/输入空间:我们把属性作为坐标轴,可以构建一个多维空间,每个西瓜都可以找到自己的坐标位置;同时,每一个西瓜对应一个坐标向量,因此,一个示例/样本,也称为特征向量。

  • 学习/训练:从数据中学得模型的过程

  • 训练数据:训练过程中使用的数据

  • 训练样本/训练示例/训练例:训练数据中的每个样本

  • 训练集:训练样本组成的集合

  • 标记(label):关于示例“结果”的信息,例如一个瓜到底是不是好瓜

  • 标记空间/输出空间:所有标记的集合

  • 样例:拥有标记信息的示例,即拥有明确结果的信息,知道瓜是好瓜还是坏瓜

  • 分类:预测离散值

  • 回归:预测连续值

  • 二分类:一个为正类,另一个为反类

  • 多分类:涉及多个类别的结果

  • 测试:根据模型进行预测的过程

  • 测试样本:被预测的样本

  • 聚类:将训练集中的样本分成若干组,每个组称为一个簇

  • 监督学习(supervised learning):训练数据有标记信息

  • 无监督学习(unsupervised learning):训练数据没有标记信息

  • 泛化:模型适用于新样本的能力

【经验误差与过拟合】

  • 训练误差/经验误差:学习器在训练集上的误差

  • 泛化误差:学习器在新样本上的误差

  • 过拟合:学习器把训练样本学得太好了,导致把训练集的一些特点当成所有潜在样本都会有的一般性质,导致泛化性能下降

  • 欠拟合:对训练样本的一般性质

【评估方法】

  • 留出法:直接把数据集D划分成两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计

  • 交叉验证法:将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性;然后,每次用k-1个子集的并集作为训练集,余下的子集为测试集,获得k组训练/测试集,从而进行k次训练和测试,最终返回这k个测试结果的均值。

  • 自助法:以自助采样法为基础,给定包含m个样本的数据集D,对它进行采样产生数据集D’,每次随机从D中挑选一个样本到D’中(有放回),这个过程执行m次后,得到包含m个样本的数据集D’。

【性能度量】

  • 均方误差:预测值和真实值的误差平方和

  • 错误率:分类错误的样本数占样本总数的比重

  • 精度:分类正确的样本数占样本总数的比重

  • 查准率:预测为正的里面,有多少真的是正的

  • 查全率:真的为正的里,有多少被预测为正

  • F1:综合考虑查准率、查全率

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值