深度学习中shuffle后随机读取多个文件夹内的数据变慢

不管是用tensorflow还是caffe,都涉及到把数据写成需要的数据格式,加快运行速度,在caffe中一般写成LMDB/LEVELDB,在tensorflow中一般写成tfrecord格式。


在写数据之前,当然是需要得到一个list,list中保存了文件名,以及对应的类型。并且需要对这个list进行shuffle处理,但是偶然发现,shuffle之后,再去读取数据会比从一个文件夹内按顺序读取数据慢很多,这是为什么呢?


实验发现,如果只是在一个文件夹下,速度会比较快,如果分开成多个文件夹,速度就比较慢了。


感觉这个确实是有可能的,每次查找文件,都是新的文件夹,而这个文件夹下有好多的文件,获取文件索引就需要很长的时间吧。而同一个文件夹中,只需要一次获取了所有的文件索引,后续的访问就快了不少。


这仅仅是个人的一点想法,不一定正确。后续如果有想法,可以回头再看看

阅读更多
版权声明: https://blog.csdn.net/b876144622/article/details/79972529
个人分类: deeplearning
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

不良信息举报

深度学习中shuffle后随机读取多个文件夹内的数据变慢

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭