十一: 系统设计

学习算法构建推荐流程:

1. 在短时间内构建一个简单可实现的算法,运行数据并通过交叉检验来验证数据;

2. 完成第一步后,便可以绘制学习曲线,通过曲线观察算法是否有高偏差或者高方差的问题,以此作为下一步决策的依据,

    是添加更多训练集还是增减特征等等;

3. 人工检查交叉验证集中预测失败的数据(误差分析),来发觉算法的缺陷去修复;

 

类偏斜的误差度量:在训练集中,某一类数据占高比,其它类占很小比例甚至没有;

为了确认这个问题,引入
    查准率:TP/(TP+FP) 即所有预测为真的数据中,实际为真的数据比例
    查全率:TP/(TP+FN) 即所有真实为真的数据中,成功预测出真的数据比例

其中
    TP:(正确肯定-True Positive):预测为真,实际为真
    TN:(正确否定-True Negative):预测为假,实际为假
    FP:(错误肯定-False Positive):预测为真,实际为假
    FN:(错误否定-False Negative):预测为假,实际为真
不同阈值下,查准率和查全率图表关系如下:
                      
如果想要高查准率,可以适当提高阈值到0.7,0.8等,这样会减少错判,但是也增加了未成功预测的情况;
如果想要高查全率,可以适当降低阈值到0.3,0.2等,这样可以增加预测为真的概率;
二者平衡:通常可以选取使F1 score=2PR/(P+R) 最高的阈值

 

 

 

 

------------------------------------------------------------------------------------------------------------------------------------

文章内容学习整理于吴教授公开课课程与黄博士笔记,感谢!

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值