西瓜书第1-2章

第一章


预测的是离散值,此类学习任务称为“分类”(classification);预测的是连续值,此类学习任务称为“回归”(regression)。

涉及多个类别时,则称为“多分类”(multi-class classifcation)任务。

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督
学习”(supervised learning) 和“无监督学习”(unsupervised learning)

重要假设:样本独立同分布

不同属性有不同的取值组合,构成假设空间\mathcal{H}

训练集中的样本的属性也会有不同的取值组合,称为版本空间

“没有免费的午餐”定理(No Free LunchTheorem,简称 NFL定理): 无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能相同【Wolpert, 1996; Wolpert and Macready, 1995】.

NFL定理前提是所有“问题”出现的机会相同、或所有问题同等重要。但实际情形并不是这样。

1.5发展历程

从样例中学习两大流派:符号主义、连接主义

符号主义学习能产生明确的解释,连接主义还是黑箱

统计学习(statistical learning)代表方法:支持向量机(Support Vector Machine)、核方法(kernel methods')

第二章 模型评估与选择

对错误的描述以及对准确的描述

1. 错误

错误率

误差,“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error)。

2.准确

“过拟合”(overfitting)“过拟合”(overfitting)

3.测试泛化能力

划分集合:

“留出法”(hold-out)直接将数据集D划分为两个互斥的集合,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

“交叉验证法”(cross validation)先将数据集 D划分为k 个大小相似的互斥子集

        留一法

“自助法”(bootstrapping) “包外估计”(out-of-bag estimate)

模型评估与选择中用于评估测试的数据集常称为“验证集”(validation set)。

性能度量:

1. “均方误差”(mean squared error)

2.错误率与精度

3.查准率、查全率与F1,“P-R曲线”

4.ROC 与AUC

5.代价敏感错误率与代价曲线

假设检验:

偏差与方差

额外补充:

P就是能在多项式时间内解决的问题,NP就是能在多项式时间验证答案正确与否的问题。怎么理解 P 问题和 NP 问题? - jammer的回答 - 知乎 https://www.zhihu.com/question/27039635/answer/35040172

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值