西瓜书 第1-2章 绪论 模型评估选择

归纳偏好inductive bias(行为准则 价值观): 奥卡姆剃刀

no lunch free:没有一种算法能在所有问题中均高于另一种算法==》不能脱离实际问题谈算法


切割测试集和训练集

为什么要切?

    可能会存在underfitting(好解决,NN增加训练轮次,DT增加分支即可)和overfitting(若目标函数是最小化训练误差则过拟

    合大概率存在且解决困难),所以要用tset测试集选模型


切割注意

    要尽量保持数据分布的一致性(分层抽样 stratified sampling)


切割方法:

留出法(hold-out):多次划分取评估均值


交叉验证(cross validation)

   e.g 有5个分类器,使用10折交叉验证把数据集D分成10个大小近似互不相交的子集;一共进行50次误差计算以选出最优模型

    (对每个分类器:每次取9个做train1个做vali,进行10次评估,取误差均值)

    (特例:留一法 leave one outLOO;即若数据有k个样本则使用k折交叉 优点是近似总体 缺点计算开销大)


自助法(boostrapping):

    有放回抽样 不被采到的概率是0.368

    保证训练集大小与数据集相同,且还有验证集

    适用于数据集较小难以有效划分的情况


性能度量

    查准率 precision = TP/TP+FP

    查全率 recall = TP/TP+FN

    平衡点break even point:查准=查全的点 可根据平衡点取值度量分类器

    f1分数 当对P-R有侧重时可选择加权f1分数

    代价敏感学习http://blog.csdn.net/panda_zjd/article/details/72377208?winzoom=1

        http://blog.csdn.net/hustqb/article/details/71109012

        实现代码:http://blog.csdn.net/linmingan/article/details/72830539


    


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值