西瓜书+南瓜书第一二章阅读笔记

西瓜书+南瓜书第一二章阅读笔记


一、第一章 绪论

主要是介绍一些基本术语和机器学习的发展历程,此处不作详细叙述。


二、第二章 模型评估与选择

2.1 评估方法

2.1.1 留出法(hold-out)

“留出法”(hold-out)直接将数据集D或分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。在S上训练出模型后,用T来评估其测试误差,作为泛化误差的估计。

2.1.2 k折交叉验证法(k-fold cross validation)

“交叉验证法”(cross validation)先将数据集D划分为k个大小相似的互斥子集。每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可以获得k组训练/测试集。从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。


2.2 性能度量(performance measure)

常用的性能度量有错误率、精度、查准率、查全率、F1、ROC和AUC。

2.2.1 错误率(error rate)

如果在m个样本中有a个样本分类错误,则错误率
E = a m E=\frac{a}{m} E=ma

2.2.2 精度(accuracy)

精度 = 1 − 错误率 精度=1-错误率 精度=1错误率

2.2.3 查准率、查全率和F1

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、正反例(true negative)、假反例(false negative)四种情况,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数。

查准率P:被学习器预测为正例的样例中有多大比例是真正例。
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
查全率R:所有正例当中有多大比例被学习器预测为正例。
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
F1:F1是基于查准率与查全率的调和平均(harmonic mean)定义的:
1 F 1 = 1 2 × ( 1 P + 1 R ) \frac{1}{F_1}=\frac{1}{2}\times (\frac{1}{P}+\frac{1}{R}) F11=21×(P1+R1)

参考

周志华《机器学习》
谢文睿、秦州《机器学习公式详解》

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值