![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据集
文章平均质量分 96
东北小丸子
我怕误人子弟
展开
-
python读写文件越来越慢
1.磁盘占用率高本人处理数据集标签文件的时候,经常会遇到格式转换的问题比如coco转voc,xml转voc等等。每个文件都不是很大,可能只有1-2k,但是架不住多啊。一多就要疯狂io,磁盘占用率就很高。刚开始发现这个问题就使用了数据结构,真的是学了这么多年数据结构,第一次感觉到了他有多牛逼。set、dict都比list 快超级多,在处理大文件之类的情况现象超级明显。2.内存占用率高将提取的内容都放在内存里了,确实节约了不少时间,但是,到最后还是会变慢。what`shappened?内存占用.原创 2020-11-25 17:06:38 · 2468 阅读 · 0 评论 -
删除重复的图片
我们使用的数据集可能是通过组合来自多个来源的图像而制作的。这样的数据集中将有很多重复的图像,如果依靠人工手动筛选将会花费很多时间并且容易出错-因此,我需要一种方法来检测并从数据集中删除这些重复的图像。1.数据集有重复图像会造成的问题1.将偏见引入到数据集中,为神经网络提供了额外的机会来学习特定于重复项的模式。2.这会损害模型泛化性2.运用的原理图像哈希(也称感知哈希)是基于图像的可视化内容构造哈希值的过程。我们将图像哈希用于CBIR(Content-based image retri..原创 2020-11-18 15:37:21 · 1613 阅读 · 0 评论 -
pytorch读取coco数据集
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/a362682954/article/details/87915680YOLOV3是工业上可以用的兼顾速度和准确率的一个深度学习目标检测模型,本系列文章将详细解释该模型的构成和实现,本文代码借鉴:https://github.com/er...转载 2019-10-15 16:25:43 · 8214 阅读 · 0 评论