今天看到有人分享的一个CV方面的面试问题:从网上爬来的200W图片数据集和公司自己积累的10W图片数据集,怎么分训练集,测试集?
这个问题我之前在deeplearning.ai学习过,还有一点印象,这里引用大树先生的笔记,:
方法一:
将两组数据合并到一起,总共得到210万张图片样本。将这些样本随机分配到训练、开发、测试集中。
- 好处:三个集合中的数据均来自于同一分布;
- 坏处:我们设立开发集的目的是瞄准目标,而现在我们的目标绝大部分是为了去优化网上获取的照片,而不是我们真正的目标。
今天看到有人分享的一个CV方面的面试问题:从网上爬来的200W图片数据集和公司自己积累的10W图片数据集,怎么分训练集,测试集?
这个问题我之前在deeplearning.ai学习过,还有一点印象,这里引用大树先生的笔记,:
方法一:
将两组数据合并到一起,总共得到210万张图片样本。将这些样本随机分配到训练、开发、测试集中。