- 朝什么方向来优化模型
在测试集中找100张识别错误的样本,然后统计出错原因,集中精力改善出错多的原因。 - DL算法对于训练集中的随机标记错误比较鲁棒。
- 当训练集和测试集不同分布时,比如现有训练集200k, 实际应用数据集有10k, 则应把10k分成两部分,一部分给训练集,剩余给验证集和测试集。训练集205k, 验证集2.5k,测试集2.5k。
- 误差分析 判断误差原因 加入 training-dev set。
- 如何解决数据不匹配问题
人工进行误差分析,理解训练集和测试集的不同之处,然后尝试使训练集更像测试集,或收集更多测试集数据。例如数据合成。在普通语音数据中加入车辆噪音,使普通语音更像车内语音。 - 迁移学习
先在A任务中学习猫狗的识别,然后再更改输出的参数,训练B任务的图像,仅训练最后一两层的参数。前面的浅层参数保留。
迁移学习为串行学习。 - 多任务学习 multi-task learning
使用神经网络同时做几个任务,并且希望每个任务都能帮到其他任务。比如同时检测行人,车辆,停止标志,交通灯等。
softmax只给一个图像输出一个标签,多任务学习输出多个标签。
- 端到端训练 end-to-end training
优缺点
何时使用端到端训练:当有足够多的所需复杂度的数据可以从x映射到y时。
structuring ML projection——第二周
最新推荐文章于 2024-08-12 23:29:58 发布