更多训练样本的取得
我们可以通过对已有的真实数据集拉伸扭曲、增加噪声的引入失真方式创造更多衍生数据集。
也可以利用一些工具创造数据集,如下载各种字体人工随机放置在不同背景中。
使用众包平台。
大量数据生效的前提
而保证工具的可用性,除了提高数据集的数目,还应该预先保证模型本身的低偏差。
我们可以通过绘制学习曲线的方式检查分类器以保证我们拥有一个低偏差、高方差的分类器。
如果偏差较高,我们可以增加特征数目或神经网络隐藏单元的数量
上限分析
上限分析法可以结合工作流,给出每一个步骤模块对于提高系统整体性能的贡献情况。
我们从工作流的开始到结尾,对每一个步骤逐一给予正确数据,刷新系统整体准确率,就可以通过差值了解到哪些模块才是最值得花精力去优化的部分。
如人脸识别的过程工作流: