1、 NoSQL简介
1.1 什么是NoSQL?
NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。
NoSQL用于超大规模数据的存储。(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。
1.2 为什么使用NoSQL ?
今天我们可以通过第三方平台(如:Google,Facebook等)可以很容易的访问和抓取数据。用户的个人信息,社交网络,地理位置,用户生成的数据和用户操作日志已经成倍的增加。我们如果要对这些用户数据进行挖掘,那SQL数据库已经不适合这些应用了, NoSQL 数据库的发展却能很好的处理这些大的数据。
1.3 NoSQL的优点/缺点
1.3.1 优点:
- 高可扩展性
- 分布式计算
- 低成本
- 架构的灵活性,半结构化数据
- 没有复杂的关系
1.3.2 缺点:
- 没有标准化
- 有限的查询功能(到目前为止)
- 最终一致是不直观的程序
1.4 NoSQL 数据库分类
类型 | 典型 | 特点 |
---|---|---|
列存储 | Hbase Cassandra Hypertable | 按列存储数据,方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势。 |
文档存储 | Hbase Cassandra Hypertable | 文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有机会对某些字段建立索引,实现关系数据库的某些功能。 |
key-value存储 | Redis Memcache | 可以通过key快速查询到其value。 |
图存储 | Neo4J FlockDB | 图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计使用不方便。 |
对象存储 | db4o Versant | 通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。 |
xml数据库 | Berkeley DB BaseX | 高效的存储XML数据,并支持XML的内部查询语法,比如XQuery,Xpath。 |
1.5 CAP定理(CAP theorem)
在计算机科学中, CAP定理(CAP theorem), 又被称作 布鲁尔定理(Brewer’s theorem), 它指出对于一个分布式计算系统来说,不可能同时满足以下三点:
- 一致性(Consistency) (所有节点在同一时间具有相同的数据)
- 可用性(Availability) (保证每个请求不管成功或者失败都有响应)
- 分区容错(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作)
CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三 大类:
- CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。
- CP - 满足一致性,分区容忍性的系统,通常性能不是特别高。
- AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。
2、 mongodb 简介
2.1 什么是MongoDB
MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。【来源百科】
2.2 MongoDB的特点
- MongoDB 是一个面向文档存储的数据库,操作起来比较简单和容易。
- MongoDB记录中支持属性的索引。
- MongoDB支持创建数据镜像,这使得其有更强的扩展性。
- Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。
- Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作。
- GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件。
- MongoDB支持各种编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。
3、 安装及启动mongodb
3.1 下载mongodb
下载地址:https://www.mongodb.com/download-center/community
3.2 安装mongodb
运行刚下载的安装包(.msi),选择Next(下一步)。
勾选同意协议,在下一步
选择Custom(自定义)
点击Browse(浏览),选择安装路径
继续选择下一步(将MongoDB安装为服务,也可以不选择,在后面单独配置见步骤3.3)
install mongoDB compass 这是MongoDB官方提供的一个可视化图形工具。选择安装的话会过程会慢些,建议取消勾选,单独安装这个工具,后面也会介绍另外一个可视化图形工具studio3t但收费的。
选择下一步,选择install 等待安装完成,选择Finish
3.3 启动mongodb数据库
3.3.1 准备配置
首先创建几个必要的文件夹和文件:数据库目录(data)、日志目录(logs)和日志文件(mongo.log)及配置文件(mongo.conf)。
配置文件内容如下:主要指定刚刚数据的目录、文件及端口
#数据库路径
dbpath=D:\software\MongoDB\Server\data
#日志输出文件路径
logpath=D:\software\MongoDB\Server\logs\mongo.log
#错误日志采用追加模式
logappend=true
#启用日志文件,默认启用
journal=true
#这个选项可以过滤掉一些无用的日志信息,若需要调试使用请设置为false
quiet=true
#端口号 默认为27017
port=27017
3.3.2 安装 mongodb服务
通过执行bin/mongod.exe,使用–install选项来安装服务,使用–config选项来指定之前创建的配置文件。 cmd进入server的bin目录,执行下面命令
mongod.exe ‐‐config ../mongo.conf ‐‐install
3.3.3 启动mongodb服务
net start MongoDB
启动服务之后,浏览器中输入http://127.0.0.1:27017看到如下界面即说明启动成功。
还可以通过 官方的工具连接服务,也可以使用其他工具MongoDB客户端管理工具。
3.3.4 关闭mongodb服务
net stop MongoDB
3.3.5 移除mongodb服务
#cmd进入安装路径 bin目录下执行
./mongod.exe ‐‐remove
3.4 studio3t(收费的,能免费试用)
为了后面使用方便,先介绍一种mongodb客户端工具-studio3t。点击超链将进入下载页面。
下完成运行,直接下一步安装即可,可以选择安装路径。
3.5 安装 mongodb compass
访问官方下载地址,选择社区版本,否则下载需要填写个人信息用户名邮箱等。下载完成一路下一步,选择安装路径即可。
4、 mongodb 入门
4.1 基础概念
在mongodb中是通过数据库、集合、文档的方式来管理数据,下边是mongodb与关系数据库的一些概念对比:
SQL 术语/概念 | MongoDB术语/概念 | 解释/说明 |
---|---|---|
database | database | 数据库 |
table | collection | 数据库表/集合 |
row | document | 数据记录行/文档 |
column | field | 数据字段/域 |
index | index | 索引 |
table joins | 表连接(MongoDB不支持) | |
primary key | primary key | 主键,MongoDB自动在每个集合中添加_id的主键 |
说明:
- 一个mongodb实例可以创建多个数据库
- 一个数据库可以创建多个集合
- 一个集合可以包括多个文档。
4.2 连接mongodb
mongodb的使用方式是客户服务器模式,即使用一个客户端连接mongodb数据库(服务端)。
4.2.1 使用命令连接
mongodb://[username:password@]host1[:port1][,host2[:port2],...[,hostN[:portN]]][/[database][?
options]]
#实例
mongodb://localhost 连接本地数据库27017端口
mongodb://root:itcast@localhost 使用用户名root密码为itcast连接本地数据库27017端口
mongodb://localhost,localhost:27018,localhost:27019,连接三台主从服务器,端口为27017、27018、27019
参数说明:
- mongodb:// 固定前缀
- username:账号,可不填
- password:密码,可不填
- host:主机名或ip地址,只有host主机名为必填项。
- port:端口,可不填,默认27017
- /database:连接某一个数据库
- ?options:连接参数,key/value对
4.2.2 上面介绍的可视化工具连接
如:输入参数建立连接
连接成功:
选择一个库和集合,会显示一些统计数据。
4.2.3 使用java程序连接
添加依赖:
<dependency>
<groupId>org.mongodb</groupId>
<artifactId>mongo‐java‐driver</artifactId>
<version>3.4.3</version>
</dependency>
测试程序:
@Test
public void testConnection(){
//创建mongodb 客户端
MongoClient mongoClient = new MongoClient( "localhost" , 27017 );
//或者采用连接字符串
//MongoClientURI connectionString = new
MongoClientURI("mongodb://root:root@localhost:27017");
//MongoClient mongoClient = new MongoClient(connectionString);
//连接数据库
MongoDatabase database = mongoClient.getDatabase("test");
// 连接collection
MongoCollection<Document> collection = database.getCollection("student");
//查询第一个文档
Document myDoc = collection.find().first();
//得到文件内容 json串
String json = myDoc.toJson();
System.out.println(json);
}
4.3 mongodb数据库操作
4.3.1 查询数据库
#查询全部数据库
show dbs
#显示当前数据库
db
4.3.2 创建数据库
use DATABASE_NAME
#如
use testdb
有DATABASE_NAME数据库则切换到此数据库,没有则创建。
但是新创建的数据库不会显示,需要至少包括一个集合。
4.3.3 删除数据库
#先切换要删除的库
use testdb
#然后执行
db.dropDatabase()
友情提示,自己练习的库,随意删没关系;工作中一定要慎重。
4.4 mongodb数据集合操作
集合相当于关系数据库中的表,一个数据库可以创建多个集合,一个集合是将相同类型的文档管理起来。
4.4.1 创建集合
db.createCollection(name, options)
name: 新创建的集合名称
options: 创建参数
4.4.2 删除集合
b.collection.drop()
例子:
db.student.drop() 删除student集合
4.5 mongodb文档操作
4.5.1 插入文档
mongodb中文档的格式是json格式,例如一个包括两个key:_id主键和name的文档:
{
"_id" : ObjectId("5b358f5324481270fd8955"),
"name" : "插入文档"
}
插入命令如下:
db.COLLECTION_NAME.insert(document)
#如:
db.student.insert({"name":"document","type":1})
每个文档默认以_id作为主键,主键默认类型为ObjectId(对象类型),mongodb会自动生成主键值。同一个集合中的文档的key可以不相同!但是建议设置为相同的。
4.5.2 更新文档
db.collection.update(
<query>,
<update>,
<options>
)
#query:查询条件,相当于sql语句的where
#update:更新文档内容
#options:选项
# 示例:
#将符合条件 "name":"document"的文档替换为{"name":"update document"}。
db.student.update({"name":"document"},{"name":"update document","type":1})
#使用$set修改器指定要更新的key,key不存在则创建,存在则更新。
db.student.update({"name":"update document"},{$set:{"name":"$set修改器","not_exist":10}},{multi:true})
#multi:false表示更新第一个匹配的文档,true表示更新所有匹配的文档。
4.5.3 删除文档
db.student.remove(<query>)
#query:删除条件,相当于sql语句中的where
#删除所有文档
db.student.remove({})
#删除符合条件的文档
db.student.remove({"name":"mongo"})
4.5.4 查询文档
db.collection.find(query, projection)
#query:查询条件,可不填
#projection:投影查询key,可不填
#查询所有学生
db.student.find()
#查询符合条件的记录
db.student.find({"name":"mongo"})
#投影查询 只显示name和age两个type,_id主键不显示。
db.student.find({"name":"mongo"},{name:1,type:1,_id:0})
4.6 mongodb用户操作
4.6.4 创建用户
#语法
mongo>db.createUser(
{ user: "<name>",
pwd: "<cleartext password>",
customData: { <any information> },
roles: [
{ role: "<role>", db: "<database>" } | "<role>"
]}
)
#创建root用户,角色为root
use admin
db.createUser(
{
user:"root",
pwd:"123",
roles:[{role:"root",db:"admin"}]
}
)
内置角色如下:
- 据库用户角色:read、readWrite;
- 据库管理角色:dbAdmin、dbOwner、userAdmin;
- 集群管理角色:clusterAdmin、clusterManager、clusterMonitor、hostManager;
- 备份恢复角色:backup、restore;
- 所有数据库角色:readAnyDatabase、readWriteAnyDatabase、userAdminAnyDatabase,
dbAdminAnyDatabase - 超级用户角色:root
4.6.2 认证登录
为了安全需要,Mongodb要打开认证开关,即用户连接Mongodb要进行认证,其中就可以通过账号密码方式进行认证。
- 在mono.conf中设置 auth=true
- 重启Mongodb
- 使用账号和密码连接数据库
4.6.3 查询用户
#查询当前库下的所有用户:
show users
4.6.4 删除用户
#语法
db.dropUser(" 用户名")
# 删除test1用户
db.dropUser("test1")
4.6.5 修改用户
#语法
db.updateUser(
"<username>",
{
customData : { <any information> },
roles : [
{ role: "<role>", db: "<database>" } | "<role>",
...
],
pwd: "<cleartext password>"
},
writeConcern: { <write concern> })
#创建test1用户
db.createUser(
{
user:"test1",
pwd:"test1",
roles:[{role:"root",db:"admin"}]
}
)
#修改test1用户的角色为readWriteAnyDatabase
use admin
db.updateUser("test1",{roles:[{role:"readWriteAnyDatabase",db:"admin"}]})
4.6.7 修改密码
#语法
db.changeUserPassword("username","newPasswd")
#修改 test1用户的密码为123
use admin
db.changeUserPassword("test1","123")
5 、 MongoDB文件存储GridFS
5.1 GridFS介绍
GridFS是MongoDB提供的用于持久化存储文件的模块,使用MongoDB存储数据的项目中可快速集成使用GridFS可以。
GridFS它的工作原理:
在GridFS存储文件是将文件分块存储,文件会按照256KB的大小分割成多个块进行存储,GridFS使用两个集合(collection)存储文件,一个集合是chunks, 用于存储文件的二进制数据;一个集合是files,用于存储文件的元数
据信息(文件名称、块大小、上传时间等信息)。从GridFS中读取文件要对文件的各各块进行组装、合并。
详细参考GridFS官方文档。
5.2 GridFS 存取文件示例
5.2.1 保存文件
使用GridFsTemplate存储文件代码:
@Autowired
GridFsTemplate gridFsTemplate;
@Test
public void testGridFs() throws FileNotFoundException {
//要存储的文件
File file = new File("d:/index.html");
//定义输入流
FileInputStream inputStram = new FileInputStream(file);
//向GridFS存储文件
ObjectId objectId = gridFsTemplate.store(inputStram, "首页文件", "");
//得到文件ID 是gridfs.files集合中的主键
String fileId = objectId.toString();
System.out.println(fileId);
}
5.2.2读取文件
创建Mongo 配置类
@Configuration
public class MongoConfig {
@Value("${spring.data.mongodb.database}")
String db;
//GridFSBucket用于打开下载流对象
@Bean
public GridFSBucket getGridFSBucket(MongoClient mongoClient){
MongoDatabase database = mongoClient.getDatabase(db);
GridFSBucket bucket = GridFSBuckets.create(database);
return bucket;
}
}
可以通过文件id查询gridfs.chunks表中的记录,得到文件的内容。
@Autowired
GridFsTemplate gridFsTemplate;
@Autowired
GridFSBucket gridFSBucket;
@Test
public void queryFile() throws IOException {
String fileId = "5b9c54e264c614237c46t123";
//根据id查询文件
GridFSFile gridFSFile =
gridFsTemplate.findOne(Query.query(Criteria.where("_id").is(fileId)));
//打开下载流对象
GridFSDownloadStream gridFSDownloadStream =
gridFSBucket.openDownloadStream(gridFSFile.getObjectId());
//创建gridFsResource,用于获取流对象
GridFsResource gridFsResource = new GridFsResource(gridFSFile,gridFSDownloadStream);
//获取流中的数据
String s = IOUtils.toString(gridFsResource.getInputStream(), "UTF‐8");
System.out.println(s);
}
5.2.3 删除文件
@Autowired
GridFsTemplate gridFsTemplate;
@Test
public void testDelFile() throws IOException {
//根据文件id删除fs.files和fs.chunks中的记录
gridFsTemplate.delete(Query.query(Criteria.where("_id").is("5b32480ed3a022164c4d2f92")));
}
附录