1、Caffe数据库
Caffe的数据层支持三种格式的数据库输入:LevelDB、LMDB和HDF5。原始图片文件可以通过convert_imageset.cpp转换成Caffe框架支持的数据文件格式,此文件源代码在tools文件夹下,生成的可执行文件在build/tools目录下,使用命令说明如下:
convert_imageset [FLAGS] ROOTFOLDER/ LISTFILE DB_NAME
此工具有四个参数,如下所述。
- FLAGS:图片数组,主要包括-gray是否为灰度图片,-shuffle是否随机打乱等;
- ROOTFOLDER/:图片存放的绝对路径,从Linux系统根目录开始;
- LISTFILE:图片列表清单,一般为一个txt文件,一行一张图片;
- DB_NAME:最终生成的数据文件存放目录。
1.1、LevelDB
LevelDB是Google实现的一个非常高效的Key-Value 数据库。它是单进程的服务,性能非常高。
LevelDB的特点:
(1)持久化存储的KV(Key-Value)系统,大部分数据存储在磁盘上。
(2)以Key值有序存储记录数据。
(3)接口简单,基本操作有写、读和删除记录等。
(4)支持数据快照功能,读取操作有受写操作影像。
(5)支持数据压缩操作。
1.2、LMDB
LMDB是一个超级快、超级小的Key-Value数据存储服务,由OpenLDAP项目的Symas开发,使用内存映射文件,其读取性能和内存数据库一样,但大小受限于虚拟地址空间的大小。
LMDB的主要特性有:
(1)基于文件映射IO(mmap)。
(2)基于B+树的Key-Value接口。
(3)基于MVCC(Multi Version Concurrent Control)的事务处理。
(4)类dbb(Berkeley db)的API。
1.3、 HDF5
HDF(Hierarchical Data File)是美国国家高级计算应用中心(NCSA)为了满足各种领域研究需求而研制的一种能高效存储和分发科学数据的新型数据格式。它可以存储不同类型的图像和数码数据的文件格式,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。HDF5于1998年推出,相比于以前的HDF文件,是一种全新的文件格式。HDF5是用于存储科学数据的一种文件格式和库文件。
HDF5是分层式数据管理结构。HDF5不但能处理更多的对象,存储更大的文件,支持并行I/O,线程和现代操作系统与应用程序所要求的其他特性,而且数据模型变得更简单,概括性更强。
HDF5只有两种基本结构:组(group)和数据集(dataset)组包含0个或多个数据集。
参考:《深度学习——Caffe之经典模型详解与实战》