Mongodb的文件管理

最新推荐文章于 2024-07-29 03:47:15 发布

JohnWang1124

最新推荐文章于 2024-07-29 03:47:15 发布

阅读量3.1k

点赞数 1

分类专栏： mongodb 文章标签： mongodb sharding 数据库

本文链接：https://blog.csdn.net/JohnWang1124/article/details/74839139

版权

MongoDB的GridFS是一种分布式文件系统，适用于存储超过16MB的大文件，如图片、视频等。文件被分割成chunks存储，每个chunk作为独立document存入chunks集合，metadata存入files集合。GridFS支持按需读取文件部分，可在replica set或sharding环境中使用，以实现高性能和高可用性。

摘要由CSDN通过智能技术生成

MongoDB数据文件

在MongoDB的数据文件夹中（默认路径是/data/db）由构成数据库的所有文件。每一个数据库都包含一个.ns文件和一些数据文件，其中数据文件会随着数据量的增加而变多。所以如果有一个数据库名字叫做foo，那么构成foo这个数据库的文件就会由foo.ns，foo.0，foo.1，foo.2等等组成。

数据文件每新增一次，大小都会是上一个数据文件的2倍，每个数据文件最大2G。这样的设计有利于防止数据量较小的数据库浪费过多的空间，同时又能保证数据量较大的数据库有相应的空间使用。

MongoDB会使用预分配方式来保证写入性能的稳定（这种方式可以使用–noprealloc关闭）。预分配在后台进行，并且每个预分配的文件都用0进行填充。这会让MongoDB始终保持额外的空间和空余的数据文件，从而避免了数据增长过快而带来的分配磁盘空间引起的阻塞。

名字空间和盘区

每一个数据库都由多个名字空间组成，每一个名字空间存储了相应类型的数据。数据库中的每一个Collection都有各自对应的名字空间，索引文件同样也有名字空间。所有名字空间的元数据都存储在.ns文件中。

名字空间中的数据在磁盘中分为多个区间，这个叫做盘区。

MongoDB GridFS

GridFS是基于mongodb存储引擎是实现的“分布式文件系统”，底层基于mongodb存储机制，和其他本地文件系统相比，它具备大数据存储的多个优点。GridFS适合存储超过16MB的大型文件，不过16M数据在当今互联网时代，已经不足为奇。我们可以使用GridFS构建大规模的“图片服务器”、“文档服务器”、“视频、音频”文件服务器，GridFS对于web应用，可以结合nginx插件“ningx-gridfs”能够简单的实现负载均衡等特性，非常便捷；可以简单认为GridFS是为web应用而生。个人认为，目前架构比较简单的NoSQL文件系统中GridFS是最优秀的。

GridFS并不是将单个文件直接存储为一个document，而是将文件分成多个parts或者说chunks，然后将每个chunk作为作为一个单独的document存储，然后将chunks有序保存。默认情况下，GridFS的chunk大小位255k。GridFS使用2个collections来存储这些文件，一个collection存储文件的chunks（实际文件数据），另一个则存储文件的metadata（用户自定义的属性，filename，content-type等）。

当用户查询GridFS中的文件时，客户端或者driver将会重新按序组装这些chunks。用户可以range查询文件，也可以获取文件的任意部分的信息，比如：跳过（skip）视频或者音频（任何文件）的中间部，实现“range access of single file”。

对于mongodb而言，每个document最大尺寸为16M，如果想存储一条数据（比如一个文件）超过16M，那么只能使用GridFS支持；GridFS可以支