1. GridFS 是一种将大型文件存储在MongoDB 数据库中的文件规范。所有官方支持的驱动均实现了GridFS 规范。由于MongoDB 中BSON 对象大小是有限制的,所以GridFS 规范提供了一种透明的机制,可以将一个大文件分割成为多个较小的文档,这样的机制允许我们有效的保存大文件对象,特别对于那些巨大的文件,比如视频、高清图片等。该规范指定了一个将文件分块的标准。每个文件都将在文件集合对象中保存一个元数据对象,一个或多个chunk 块对象可被组合保存在一个chunk 块集合中。
2. GridFS 对Java, Perl, PHP, Python, Ruby 等程序语言均支持,且提供了良好的API 接口。
3.GridFS 使用两个表来存储数据:
files 包含元数据对象
chunks 包含其他一些相关信息的二进制块
为了使多个GridFS 命名为一个单一的数据库,文件和块都有一个前缀,默认情况下,前缀是fs,所以任何默认的GridFS 存储将包括命名空间fs.files 和fs.chunks。各种第三方语言的驱动有权限改变这个前缀,所以你可以尝试设置另一个GridFS 命名空间用于存储照片,它的具体位置为:photos.files 和photos.chunks。
4.命令行工具:mongofiles 存储文件
存储testfile文件:
./mongofiles put testfile
可以使用下边的命令,查看存放了多少文件。
./mongofiles list
也可以进入命令行,利用show collections命令查看,应该回多了fs.chunks 和fs.files两个collection。
还可以通过命令查看文件信息:
> db.fs.files.find();
{ "_id" : ObjectId("515a1bec483d3dde1d431d58"), "filename" : "/data/software/tokyocabinet-java-1.24.tar.gz", "chunkSize" : 262144, "uploadDate" : ISODate("2013-04-01T23:44:44.227Z"), "md5" : "cb7db713865cedf255916691daa522d2", "length" : 180437 }
字段说明:
Filename: 存储的文件名,chunkSize: chunks 分块的大小,uploadDate: 入库时间,md5: 此文件的md5 码,length: 文件大小, 单位”字节”。
另外一个chunks的collection存储的主要是文件内容。
5.分块存储后,合并文件
还是使用命令行工具:mongofiles
./mongofiles get testfile
db.fs.chunks.ensureIndex({files_id:1, n:1}, {unique: true});
这样,一个块就可以利用它的files_id 和 n 的值进行检索。注意,GridFS 仍然可以用findOne得到第一个块,如下:
db.fs.chunks.findOne({files_id: myFileID, n: 0});