自己写的或者找的课后习题解答,预计错误会很多。
2.1
数据集包含1000个样本,其中500正例,500反例,划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,估算有多少种划分方式
( 150 500 ) ∗ ( 150 500 ) {150 \choose 500}*{150 \choose 500} (500150)∗(500150)
2.2
留一法:样本中正反例各一半,每次选出一个正例样本作为测试集之后,训练集正反比为49:50(选反例50:49),学习算法会将测试集预测为反例,错误率100%。
10折交叉验证:数据集 D \ D D分为10个不同的子集。每个子集 D i \ D_i Di 都尽可能保持数据分布一致性,即通过分层采样获得(5正例5反例),算法进行随机猜测,错误率为50%。
2.3
F 1 \ F1 F1是基于查准率与查全率的调和平均,定义为:
1 F 1 = 1 2 ⋅ ( 1 P + 1 R ) \frac{1}{F1}=\frac{1}{2}\cdot(\frac{1}{P}+\frac{1}{R}) F11=21<