西瓜书第1、2章学习笔记

谈论算法的相对优劣,必须要针对具体的学习问题。

【一、基本概念】(仅记录自己不太熟悉或需要记忆的概念)

属性空间 (attribute space):属性张成的空间,也称为样本空间(sample space)或输入空间。

真相、真实(ground-truth):潜在规律自身。

标记空间(label space):所有标记的集合,也称输出空间。

泛化(generalization)能力:学得模型适用于新样本的能力。

归纳(induction):从特殊到一般的泛化过程。

演绎(deduction):从一般到特殊的特化(specialization)过程。

版本空间(version space):存在着一个与训练集一致的“假设集合”。

归纳偏好(inductive bias,简称偏好):机器学习算法在学习过程中对某种类型假设的偏好。

奥卡姆剃刀:一种常用的、自然科学研究的最基本原则,“若有多个假设与观察一致,则选最简单的那个”。

错误率(error rate):分类错误的样本数占样本总数的比例。

精度(accuracy):精度=1-错误率。

训练误差(training error):训练集上的误差,又称经验误差(empirical error)。

泛化误差(generalization error):在新样本上的误差。

分层采样(stratified sampling):保留类别比例的采样方式。

交叉验证法:将数据集分为k个大小相似的互斥子集,每次用k-1个子集作为训练集,余下的那个子集作为测试集,对样本进行k次训练和测试,结果取均值。又称k折交叉验证。

留一法(Leave-One-Out,LOO):特殊的交叉验证法,数据集中包含m个样本,分成k=m个子集。

自助法:对于有m个样本的数据集D,重新建立一个新的数据集D',每次有放回的随机在D中采样一个样本放入D'中,共采样m次。估计出大概有36.8%的样本不会被采样。以D'为训练集,D\D'(表示集合减法)做测试集。

包外估计(out-of-bag estimate):自助法的测试结果。

【二、知识脉络】

第一章主要介绍什么是机器学习,好的机器学习应该具有什么能力。

机器学习是通过已有的数据训练出模型,应用到新的数据中去的一种“学习算法”的学问。对于一个好的模型,要有恰当的特征、合适的算法、归纳偏好以及合理的评估手段。

第二章讲的是模型评估和选择。

评估方法:留出法、交叉验证法(特殊地,有留一法)、自助法

性能度量:均方误差、错误率与精度、查准率、查全率、F1、ROC、AUC、代价敏感错误率、代价曲线

比较检验:假设检验、交叉验证t检验、Friedman检验、Nemenyi后续检验

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值