机器学习基础误差分析学习笔记

最新推荐文章于 2024-08-04 08:00:00 发布

m0_62417631

最新推荐文章于 2024-08-04 08:00:00 发布

阅读量471

点赞数

文章标签：机器学习学习人工智能

本文链接：https://blog.csdn.net/m0_62417631/article/details/123031812

版权

1.花几天时间与团队头脑风暴构建出一套基础系统，是非常必要的，这可以让团队的精力作用在对效益最大的模块上，即使还没有深入地去研究各模块的作用，以及还没有信心确认该系统能带来实际的作用。

2.如果团队中的项目出现了分类失误的问题，首先要了解团队大概需要多久时间去完成优化，优化成功的概率是多大，优化成功后能够给团队的业绩带来多少的改善。具体在机器学习算法上的应用而言，人为地检查分类失误的图像，如果多数图像分类错误成狗，那么改善该项目是有益的，反之亦然。

3.“虽然你可能事先规定了一些类别（狗，大猫，模糊）并进行了手动的分类，但在浏览图像时你可能会受到启发并发现一些新的类别。比如你在浏览一些图片时发现，经过 Instagram 滤镜处理过的图片在识别时对结果造成了误差，你就可以在电子表格中加入一个新的 “Instagram” 列。手动查看误分类样本，并思考人类如何/是否能正确地分类这些样本，这将帮助你发现新的类别以及解决方案。” - Andrew Ng

4.区分不同误标注造成的误差，统计开发集内的误差，看有多少是误标注造成的误差，对比其他原因造成的误差。

5."如果你只对开发产品和应用感兴趣，如此程度的偏差是可以接受的。但如果你计划在学术论文中引用此结果，可能就需要完全无偏地度量测试集的精度，此时这样做就会出现问题。" - Andrew Ng

6.“假设你有一个含有 5000 个样本的大型开发集，该开发集的误差为 20% ，这意味着算法将误分类 1000 张开发集图片。人工手动检查这 1000 张图片会花费很长时间，所以我们在误差分析时没必要使用所有的图片。在这种情况下，我会将开发集明确地分成两个子集，但只人工检查其中的一个。你将使得那些经人工查看的图片更快地过拟合，而另一部分没有被人工查看的图片可以在调参时使用。

考虑将开发集分为人为检查的 Eyeball 开发集和非人为检查的 Blackbox 开发集。如果在 Eyeball 开发集上的性能比在 Blackbox 开发集上好很多，说明你已过拟合 Eyeball 开发集，下一步应该考虑为其获取更多数据。

Eyeball 开发集应该足够大，以便于算法有足够多的错误分类样本供你分析。对大多数应用来说，含有1000-10000个样本的 Blackbox 开发集已足够。

如果你的开发集不够大，无法按照这种方式进行拆分，那么就使用 Eyeball 开发集来执行人工误差分析、模型选择和调超参。” - Andrew Ng