关于数据整理的问题记录

最新推荐文章于 2024-06-08 10:07:22 发布

梦回兵工厂

最新推荐文章于 2024-06-08 10:07:22 发布

阅读量164

点赞数 2

分类专栏： Deep Learning理论知识文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/m0_37635769/article/details/112980974

版权

7 篇文章 1 订阅

订阅专栏

以下问题，以训练分类模型为例：

整体原则：
越能模拟实际使用场景越好。
（1）如果考虑模型的泛化能力，数据越丰富、越五花八门越好；
（2）如果只考虑某固定场景的准确率，越接近该场景越好（如某演示场景）。
没有具体的张数限定。比如说，“各式各样”的100张图像，可能比只有某个样子的500张图像效果更好。

允许每个种类的样本数不一致，但是不能超过太多，例如：1万张和1千张这样量纲上的区别。
类间数据量不均衡造成的影响：数据量越大的类别，其召回率会更高，相应地会损失一些精度。（参考文章：https://www.cnblogs.com/laiqun/p/6248784.html）

1）重复性的图片，跳帧保存图像；
2）旋转
3）遮挡
4）光线变化

无论是训练集、还是测试集，其图像的分辨率如果太小，都会致使识别效果降低。
主要原因是：分辨率太小，丢失了大量的目标信息。
分辨率大小，如何进行把握，根据经验，最好大于200*200。

关注