西瓜书第1-2章绪论模型评估选择

最新推荐文章于 2024-09-07 10:06:44 发布

qq_39701758

最新推荐文章于 2024-09-07 10:06:44 发布

阅读量167

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39701758/article/details/79519659

版权

归纳偏好inductive bias（行为准则价值观）：奥卡姆剃刀

no lunch free:没有一种算法能在所有问题中均高于另一种算法==》不能脱离实际问题谈算法

切割测试集和训练集

为什么要切？

可能会存在underfitting（好解决，NN增加训练轮次，DT增加分支即可）和overfitting（若目标函数是最小化训练误差则过拟

合大概率存在且解决困难），所以要用tset测试集选模型

切割注意

要尽量保持数据分布的一致性（分层抽样 stratified sampling）

切割方法：

留出法（hold-out）：多次划分取评估均值

交叉验证（cross validation）

e.g 有5个分类器，使用10折交叉验证把数据集D分成10个大小近似互不相交的子集；一共进行50次误差计算以选出最优模型

（对每个分类器：每次取9个做train1个做vali，进行10次评估，取误差均值）

（特例：留一法 leave one outLOO；即若数据有k个样本则使用k折交叉优点是近似总体缺点计算开销大）

自助法（boostrapping）：

有放回抽样不被采到的概率是0.368

保证训练集大小与数据集相同，且还有验证集

适用于数据集较小难以有效划分的情况

性能度量

查准率 precision = TP/TP+FP

查全率 recall = TP/TP+FN

平衡点break even point：查准=查全的点可根据平衡点取值度量分类器

f1分数当对P-R有侧重时可选择加权f1分数

代价敏感学习：http://blog.csdn.net/panda_zjd/article/details/72377208?winzoom=1

http://blog.csdn.net/hustqb/article/details/71109012

实现代码：http://blog.csdn.net/linmingan/article/details/72830539

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。