第二章

1.已知1000个样本,500个正例,500个反例,划分为包含70%样本的训练集和30%的测试集用于留出法评估,则划分方式有
在这里插入图片描述
2.10折交叉验证法:采用分层采样,结果是随机猜,所以错误率是50%。
留一法:若测试集是一个正例样本,则训练集中反例样本的数目多于正例样本,又题中假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别,故测试集样本被判断为反例;同理,当测试集是一个反例样本时,最后判断的结果是正例,故错误率为100%。
3.F1度量:基于查准率P与查全率R的调和平均,公式表示为1/F1=(1/P+1/R)*1/2
BEP平衡点度量:P=R时的取值
则当P=R时,BEP=F1,又F1(A)>F1(B),故BEP(A)>BEP(B)。
4.真正例率TPR:真实正例中预测正例的比例
假正例率FPR:真实反例中预测正例的比例
查准率P:预测正例中真实正例的比例
查全率R:真实正例中预测正例的比例
它们的定义分别为:
在这里插入图片描述
R=TPR
6.ROC曲线是基于TPR与FPR表示了模型在不同截断点取值下的泛化性能。ROC曲线上的点越靠近(PTR=1,FPR=0),学习器越完美,但是常需要通过计算等错误率来实现P(准确率)、R(召回率)的折衷,而P、R则反映了我们所侧重部分的错误率。
7.代价曲线绘制:ROC曲线上每一点对应了代价平面上的一条线段,设ROC曲线上点的坐标为(TPR,FPR),则可相应计算出FNR(1-TPR),然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;如此将ROC曲线上的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价。
8.Min-max规范化:方法简单;容易受高杠杆点和离群点影响;当加入新值超出当前最大最小范围时重新计算所有之前的结果。
z-score规范化:计算量相对大一些;对离群点敏感度相对低一些;毎加入新值都要重新计算所有之前的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值