1.磁盘占用率高
本人处理数据集标签文件的时候,经常会遇到格式转换的问题比如coco转voc,xml转voc等等。每个文件都不是很大,可能只有1-2k,但是架不住多啊。一多就要疯狂io,磁盘占用率就很高。刚开始发现这个问题就使用了数据结构,真的是学了这么多年数据结构,第一次感觉到了他有多牛逼。set、dict都比list 快超级多,在处理大文件之类的情况现象超级明显。
2.内存占用率高
将提取的内容都放在内存里了,确实节约了不少时间,但是,到最后还是会变慢。what`s happened?
内存占用率有点高啊。
基础的-打开文件用with open(file)as xxx
还可以看一下文件读取的read,readline,readlines,这里有一个
3.啥都不高,就是运行速度慢
跑了一天没有结束的数据处理程序,我扔到服务器上跑,5分钟结束,你说气不气吧。