【机器学习】西瓜书课后习题参考答案—第2章模型评估与选择

一个甜甜的大橙子

已于 2023-08-05 10:48:35 修改

阅读量3.7k

点赞数 11

分类专栏：大橙子学机器学习文章标签：机器学习人工智能深度学习

于 2023-05-07 22:01:38 首次发布

本文链接：https://blog.csdn.net/chengyikang20/article/details/130543434

版权

大橙子学机器学习专栏收录该内容

9 篇文章

订阅专栏

文章讨论了机器学习中的一些关键概念，包括错误率、精度、泛化误差和过拟合、欠拟合的区分。它还涉及模型评估方法，如留出法和交叉验证，以及F1值和ROC曲线作为性能度量。此外，提到了数据集划分、模型选择和规范化方法的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记心得

记录西瓜书课后习题的思考与参考答案。

术语学习

错误率 error rate
精度 accuracy
误差 error
训练误差 training error
经验误差 empirical error
泛化误差 generalization error
过拟合 overfitting
欠拟合 underfitting
模型选择 model selection
测试集 testing set
测试误差 testing error
留出法 hold-out
采样 sampling
分层采样 stratified sampling
保真性 fidelity
交叉验证法 cross validation
k折交叉验证 k-fold cross validation
留一法 Leave-One-Out
自助法 bootstraping
自助采样法 bootstrap sampling
包外估计 out-of-bag estimate
参数 parameter
调参 parameter tuning
验证集 validation set
性能度量 performance measure
均方误差 mean squared error
查准率 precision
查全率 recall
真正例 true positive
假正例 false positive
真反例 true negative
假反例 false negative
平衡点 Break-Even Point
调和平均 harmonic mean
宏F1 macro-F1
微F1 micro-F1
阈值 threshold
截断点 cut point
受试者工作特征 Receiver Operating Characteristic
AUC Area Under ROC Curve
非均等代价 unequal cost
代价矩阵 cost matrix
总体代价 total cost
代价敏感 cost-sensitive
代价曲线 cost curve
统计假设检验 hypothesis test
规范化 normalization
二项检验 binomial test
置信度 confidence
t检验 t-test
双边 two-tailed
成对t检验 paired t-test
列联表 contingency table
偏差-方差分解 bias-variance decomposition
偏差-方差窘境 bias-variance dilemma

课后习题

2.1 数据集包含 1000 个样本，其中 500 个正例、 500 个反例，将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估，估算有多少种划分方式。

答：
需注意，训练集/测试集的划分要尽可能保持数据分布的一致性，因此，训练集包含350个正例样本，350个反例样本
抽取正例共 $C^{350}_{500}$ 种方式，抽取反例共 $C^{350}_{500}$ 种方式，因此共 $(C^{350}_{500})^2$ 种。

2.2 数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

答：
分类错误率定义为
$E(f;D)=\frac1m\sum^m_{i=1}\mathbb{I}(f(\bm{x}_i \ne y_i)$
10折交叉验证法，每次训练时训练集中有45个正例和45个反例，预测时随机猜测新样本（5个正例和5个反例）的标签，错误率期望为50%。
留一法，每次训练时有49个正例和50个反例，新样本（1个正例）会被预测为反例，错误率为100%，每次训练时有50个正例和49个反例，新样本（1个反例）会被预测为正例，错误率为100%。

2.3 若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。

答：
直观感受就是两者没有必然的联系。

“平衡点”BEP就是这样一个度量，P-R曲线上“查全率=查准率”时的取值。
F1是基于查全率和查准率的调和平均。
$\frac {2 \times P \times R}{P + R} = \frac {2 \times TP}{样例总数+TP-TN}$
$\frac {TP}{TP+FP}$
$\frac {TP}{TP+FN}$

反例，假设学习器A的输出值（范围0-1）均为学习器B的2倍，那么学习器B的输出值范围就是0-0.5，那么在同样的阈值（假设为0.5）下，学习器B的F1值为0，学习器A的F1值大于0，而两个学习器的BEP应该是相等的。
从P-R曲线图上可以设想两条曲线A，B，它们都过同一点，且为BEP，但是F1值需要在给定的P和R下进行比较。

参考链接1，参考链接2，他们的分析思路值得借鉴。

2.4 试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

答：
$\frac {TP}{TP+FN}$ 真正例率，代表真实正例中预测对的
$\frac {FP}{TN+FP}$ 假正例率，代表真实反例中预测错的
$\frac {TP}{TP+FP}$ 查准率，代表预测为正例的样本中有多少是对的，precision
$\frac {TP}{TP+FN}$ 查全率，代表真实正例中有多少被预测对了，也叫召回率recall
存在的关系：
R和TPR说的是一回事
一般来说，P高时，R往往偏低，R高时，P往往偏低。