Machine Learning Yearning总结

本文介绍了机器学习中误差分析和拆分法的重要性。通过误差分析确定模型偏差和方差,比如检查误分类样本以优化算法。同时,文章提到了将数据集拆分为Eyeball和Blackbox部分,以更好地理解错误来源并指导模型优化。在实践中,适当的数据量和正则化可以有效改善模型性能。
摘要由CSDN通过智能技术生成

文中提出,业界一般流程:例如识别猫

你的团队有很多ideas,比如说:

1.获取更多数据:收集更多猫咪的图片
2.收集更多各种各样的训练集:比如说,不寻常花色的猫咪、不寻常姿势的猫咪以及相机对应各种参数下的猫咪图片
3.通过多轮梯度下降迭代,花更多的时间训练算法
4.构建一个更大的神经网络,有更多的层/隐藏层/参数
5.尝试小一点的神经网络
6.尝试着使用正则化(如L2正则化)
7.修改神经网络的架构(激活函数、隐藏单元的数量等)
 

分析机器学习和深度学习:

可得:

  1. 训练大型的神经网络,效果如同上图的绿色曲线。

  2. 拥有海量的数据。

因此,有改进算法性能的跟可靠方式是(1)训练更大的网络(2)获得更多的数据

 

1. 谈谈验证(测试)集怎么选?

以真实场景数据最优(以你预料“现场”的样本分布为准)

PS:

如果你在打造一个模型预测上海范围的车牌,那你的验证集就应该多选择“沪”牌(哪怕你的数据集有许多外地车牌)。

 

验证集和测试集应该同分布,如果两者不同分布,集中注意在验证集上。

注意:单一的度量指标去优化模型(哪怕准确率和召回率都要考虑,也可以求个平均值,以平均值(F1 score)为目标):

 

 

2、如何构建有效的性能和错误分析机制 ?

注意力:重点关注集(eyeball dev set)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值