第一章
预测的是离散值,此类学习任务称为“分类”(classification);预测的是连续值,此类学习任务称为“回归”(regression)。
涉及多个类别时,则称为“多分类”(multi-class classifcation)任务。
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督
学习”(supervised learning) 和“无监督学习”(unsupervised learning)
重要假设:样本独立同分布
不同属性有不同的取值组合,构成假设空间
训练集中的样本的属性也会有不同的取值组合,称为版本空间
“没有免费的午餐”定理(No Free LunchTheorem,简称 NFL定理): 无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能相同【Wolpert, 1996; Wolpert and Macready, 1995】.
NFL定理前提是所有“问题”出现的机会相同、或所有问题同等重要。但实际情形并不是这样。
1.5发展历程
从样例中学习两大流派:符号主义、连接主义
符号主义学习能产生明确的解释,连接主义还是黑箱
统计学习(statistical learning)代表方法:支持向量机(Support Vector Machine)、核方法(kernel methods')
第二章 模型评估与选择
对错误的描述以及对准确的描述
1. 错误
错误率
误差,“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error)。
2.准确
“过拟合”(overfitting)“过拟合”(overfitting)
3.测试泛化能力
划分集合:
“留出法”(hold-out)直接将数据集D划分为两个互斥的集合,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
“交叉验证法”(cross validation)先将数据集 D划分为k 个大小相似的互斥子集
留一法
“自助法”(bootstrapping) “包外估计”(out-of-bag estimate)
模型评估与选择中用于评估测试的数据集常称为“验证集”(validation set)。
性能度量:
1. “均方误差”(mean squared error)
2.错误率与精度
3.查准率、查全率与F1,“P-R曲线”
4.ROC 与AUC
5.代价敏感错误率与代价曲线
假设检验:
偏差与方差
额外补充:
P就是能在多项式时间内解决的问题,NP就是能在多项式时间验证答案正确与否的问题。怎么理解 P 问题和 NP 问题? - jammer的回答 - 知乎 https://www.zhihu.com/question/27039635/answer/35040172