1.花几天时间与团队头脑风暴构建出一套基础系统,是非常必要的,这可以让团队的精力作用在对效益最大的模块上,即使还没有深入地去研究各模块的作用,以及还没有信心确认该系统能带来实际的作用。
2.如果团队中的项目出现了分类失误的问题,首先要了解团队大概需要多久时间去完成优化,优化成功的概率是多大,优化成功后能够给团队的业绩带来多少的改善。具体在机器学习算法上的应用而言,人为地检查分类失误的图像,如果多数图像分类错误成狗,那么改善该项目是有益的,反之亦然。
3.“虽然你可能事先规定了一些类别(狗,大猫,模糊)并进行了手动的分类,但在浏览图像时你可能会受到启发并发现一些新的类别。比如你在浏览一些图片时发现,经过 Instagram 滤镜处理过的图片在识别时对结果造成了误差,你就可以在电子表格中加入一个新的 “Instagram” 列。手动查看误分类样本,并思考人类如何/是否能正确地分类这些样本,这将帮助你发现新的类别以及解决方案。” - Andrew Ng
4.区分不同误标注造成的误差,统计开发集内的误差,看有多少是误标注造成的误差,对比其他原因造成的误差。
5."如果你只对开发产品和应用感兴 趣,如此程度的偏差是可以接受的。但如果你计划在学术论文中引用此结果,可能就需要完全 无偏地度量测试集的精度,此时这样做就会出现问题。" - Andrew Ng
6.“假设你有一个含有 5000 个样本的大型开发集,该开发集的误差为 20% ,这意味着算法将误分类 1000 张开发集图片。人工手动检查这 1000 张图片会花费很长时间,所以我们在误差分析时没必要使用所有的图片。 在这种情况下,我会将开发集明确地分成两个子集,但只人工检查其中的一个。你将使得那些经人工查看的图片更快地过拟合,而另一部分没有被人工查看的图片可以在调参时使用。
考虑将开发集分为人为检查的 Eyeball 开发集和非人为检查的 Blackbox 开发集。如果在 Eyeball 开发集上的性能比在 Blackbox 开发集上好很多,说明你已过拟合 Eyeball 开发集 ,下一步应该考虑为其获取更多数据。
Eyeball 开发集应该足够大,以便于算法有足够多的错误分类样本供你分析。对大多数应 用来说,含有1000-10000个样本的 Blackbox 开发集已足够。
如果你的开发集不够大,无法按照这种方式进行拆分,那么就使用 Eyeball 开发集来执行 人工误差分析、模型选择和调超参。” - Andrew Ng