第一章
- 监督学习(Supervised Learning):
训练样本带有标签。学习x到y之间的映射关系
回归(regression)算法:预测的是连续值,如处于0~1之间的0.12,0.76等。
分类(Classification)算法:预测的是离散值。
2.无监督学习(Unsupervised Learning):
无标签的训练样本,聚类cluster,找到潜在关系、结构。
主要用于异常检测和降维。
没有免费的午餐(NFL):
该定理表明了没有一种算法可以在所有问题上都表现最好。谈论算法的优劣,必须要针对具体的实际问题。
归纳(induction):从特殊到一般。
演绎(deduction):从一般到特殊。
过拟合(overfitting):
“把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质。”指模型在训练数据上表现良好,在测试数据集上表现不佳的现象,这会导致泛化性能下降。该现象无法避免,与欠拟合(underfitting)相对。
补充:
强化学习: 不断给予反馈(奖励)来优化状态—行为的对应关系。
NP问题:能够在多项式时间内使用非确定性算法被解决的问题。
P问题:能够在多项式时间内被解决的问题。
NP难问题:和NP问题一样困难,或者更加困难的问题。
第二章. 模型评估方法:
留出法(hold-out):
直接将数据集划分成两个互斥的集合,分别用作训练和测试。
k折交叉验证法(cross validation):
将数据集划分成k个大小相同的互斥子集。每次训练选取其中k-1个子集作为并集,剩余一个做测试。
特例:留一法——数据集包含m个样本,令k=m。
自助法(bootstrapping):
每次随机从数据集D中挑选一个样本,放回后再进行下一次抽取,抽取m次。所有被抽取中的样本作为训练集。一般用在数据集较小,难以有效划分训练/测试集时。缺点:改变了初始数据集的分布,会引起估计偏差。
调参(parameter tuning):
算法的参数:人工调节设定。模型的参数:通过学习来产生。
性能度量(performance measure):
定义:衡量模型的泛化能力的评价标准。
回归任务中最常用的是MSE均方误差。
分类任务:
错误率与精度:E(f;D), acc(f;D)。
查准率P与查全率R:
TP(真正例),FN(假反例),FP(假正例),TN(真反例)。
查准率(precision):P=TP/(TP+FP),选出来的瓜有多少是好的(感觉跟准确率差不多)。
查全率(recall):R=TP/(TP+FN),所有的好西瓜中有多少被选出来。
P—R曲线:比较曲线下的面积大小,或比较平衡点处(即查准率=查全率)的值,可以用于衡量学习器的优劣。
当对查全率和查准率的重视不同时,可用Fβ。
ROC & AUC:
ROC全称为受试者工作特征,横轴为假正例率(FPR),纵轴为真正例率(TPR)。其中TPR=TP/(TP+FN), FPR=FP/(TN+FP)。
可通过看一个学习器的ROC曲线是否将另一个包住,或比较两个ROC曲线下的面积(AUC)来判断两者的优劣。
AUC考虑的是样本预测的排序质量。
注:内容主要来源于周志华的《机器学习》(清华大学出版社)。