1.入门概述
NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,包括超大规模数据的存储。
1.1. NoSQL起源
过去,关系型数据库(SQL Server、Oracle、MySQL)是数据持久化的唯一选择,但随着发展,关系型数据库存在以下问题。
问题1:不能满足高性能查询需求
我们使用:Java、.Net等语言编写程序,是面向对象的。但用数据库都是关系型数据库。存储结构是面向对象的,但是数据库却是关系的,所以在每次存储或者查询数据时,我们都需要做转换。类似Hibernate、Mybatis这样的ORM框架确实可以简化这个过程,但是在对高性能查询需求时,这些ORM框架就捉襟见肘了。
问题2:应用程序规模的变大
网络应用程序的规模变大,需要储存更多的数据、服务更多的用户以及需求更多的计算能力。为了应对这种情形,我们需要不停的扩展。
扩展分为两类:一种是纵向扩展,即购买更好的机器,更多的磁盘、更多的内存等等。
另一种是横向扩展,即购买更多的机器组成集群。在巨大的规模下,纵向扩展发挥的作用并不是很大。
首先单机器性能提升需要巨额的开销并且有着性能的上限,在Google和Facebook这种规模下,永远不可能使用一台机器支撑所有的负载。鉴于这种情况,我们需要新的数据库,因为关系数据库并不能很好的运行在集群上。
我们看一下应用架构的发展历史:
1.1单机mysql的美好时代
在上世纪90年代,一个网站的访问量一般都不大,用单个数据库完全可以轻松应对。在那个时代,更多的是静态网页,动态网页交互类型的网站都很少。
DAL(Data Access Layer),是把所有和数据库操作(类似insert、update、delete、select)的业务逻辑封装,是一个逻辑上的概念,三层的概念是为了设计规范、系统扩展方便的需要
- 上述架构下,我们来看看数据存储的瓶颈是什么?
- 1、数据量的总大小 一个机器放不下时
- 2、数据的索引(B+ Tree)一个机器的内存放不下时
- 3、访问量(读写混合)一个实例不能承受
- 如果满足了上述1 or 3个,则需要进化......
1.2 缓存+mysql(数据库)+垂直拆分
后来,随着访问量的上升,几乎大部分使用MySQL架构的网站在数据库上都开始出现了性能问题,web程序不再仅仅专注在功能上,同时也在追求性能。程序员们开始大量的使用缓存技术来缓解数据库的压力,优化数据库的结构和索引。开始比较流行的是通过文件缓存来缓解数据库压力,但是当访问量继续增大的时候,多台web机器通过文件缓存不能共享,大量的小文件缓存也带了了比较高的IO压力。
在这个时候,缓存(Memcached)就自然的成为一个非常时尚的技术产品。
Memcached
作为一个独立的分布式的缓存服务器,为多个web服务器提供了一个共享的高性能缓存服务,在Memcached服务器上,又发展了根据hash
算法来进行多台Memcached
缓存服务的扩展,然后又出现了一致性hash
来解决增加或减少缓存服务器导致重新hash
带来的大量缓存失效的弊端
1.3 Mysql主从读写分离
由于数据库的写入压力增加,Memcached只能缓解数据库的读取压力,读写集中在一个数据库上让数据库不堪重负,大部分网站开始使用主从复制技术来达到读写分离,以提高读写性能和读库的可扩展性。Mysql的master-slave模式成为这个时候的网站标配了。
1.4 分表分库+水平拆分+mysql集群
-
在
Memcached
的高速缓存,MySQL
的主从复制,读写分离的基础之上,这时MySQL
主库的写压力开始出现瓶颈,而数据量的持续猛增,由于MyISAM
使用表锁,在高并发下会出现严重的锁问题,大量的高并发MySQL
应用开始使用InnoDB
引擎代替MyISAM
。 -
同时,开始流行使用分表分库来缓解写压力和数据增长的扩展问题。这个时候,分表分库成了一个热门技术,是面试的热门问题也是业界讨论的热门技术问题。也就在这个时候,
MySQL
推出了还不太稳定的表分区,这也给技术实力一般的公司带来了希望。虽然MySQL
推出了MySQL Cluster
集群,但性能也不能很好满足互联网的要求,只是在高可靠性上提供了非常大的保证。
1.5 mysql的扩展性瓶颈
MySQL
数据库也经常存储一些大文本字段,导致数据库表非常的大,在做数据库恢复的时候就导致非常的慢,不容易快速恢复数据库。比如1000
万4KB
大小的文本就接近40GB
的大小,如果能把这些数据从MySQL
省去,MySQL
将变得非常的小。关系数据库很强大,但是它并不能很好的应付所有的应用场景。MySQL
的扩展性差(需要复杂的技术来实现),大数据下IO
压力大,表结构更改困难,正是当前使用MySQL
的开发人员面临的问题。
1.6发展到现在服务架构
2.NoSql的特点
2.1三大特性
-
易扩展:NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。也无形之间,在架构的层面上带来了可扩展的能力。
-
大数据量高性能:NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。一般MySQL使用
Query Cache
,每次表的更新Cache
就失效,是一种大粒度的Cache
,在针对web2.0
的交互频繁的应用,Cache
性能不高。而NoSQL
的Cache
是记录级的,是一种细粒度的Cache
,所以NoSQL
在这个层面上来说就要性能高很多了 -
多样灵活的数据模型:NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦
2.2Nosql的3V3高
3V:Volume、Variety、Velocity
。这3V
表明大数据的三方面特质:量大、多样、实时。对,不光是数据量大了。对TB、PB数据级的处理,已经成为基本配置。还能处理多样性的数据类型,结构化数据和非结构化数据,能处理Web数据,能处理语音数据甚至是图像、视频数据。实时。以前的决策支持时代,可以用批量处理的方式,隔夜处理数据,等决策者第二天上班,可以看到昨天的经营数据。但现在的互联网时代,业务在24小时不间断运营,决策已经不是第二天上班才做出,而是在客户每次浏览页面,每次下订单的过程中都存在,都会需要对用户进行实时的推荐,决策已经变得实时。
3高:高并发、高可扩、高性能
3.Nosql的简介和数据模型
3.1. NoSQL简介
常用的NoSQL数据库
MongoDB、Redis、HBase
3.2 NoSQL数据库4大类型
A)键值(Key-Value)数据库[Redis/Memcached]
适用场景:
储存用户信息,比如会话、配置文件、参数、购物车等等。这些信息一般都和ID(键)挂钩,这种情景下键值数据库是个很好的选择。
不适用场景:
1.取代通过键查询,而是通过值来查询。Key-Value数据库中根本没有通过值查询的途径
2.需要储存数据之间的关系。在Key-Value数据库中不能通过两个或以上的键来关联数据。
3.事务的支持。在Key-Value数据库中故障产生时不可以进行回滚。
B)面向文档(Document-Oriented)数据库[MongoDB]
数据可以使用XML、JSON或者JSONB等多种形式存储。
适用场景:1.日志 2.分析
不适用场景:不支持事务
C)列存储(Wide Column Store/Column-Family)数据库[HBASE]
列存储数据库将数据储存在列族(column family)中,一个列族存储经常被一起查询的相关数据。举个例子,如果我们有一个Person类,我们通常会一起查询他们的姓名和年龄而不是薪资。这种情况下,姓名和年龄就会被放入一个列族中,而薪资则在另一个列族中。
适用场景:1.日志 2.博客平台,我们储存每个信息到不同的列族中。举个例子,标签可以储存在一个,类别可以在一个,而文章则在另一个。
不适用场景:1.ACID事务 2.原型设计。在模型设计之初,我们根本不可能去预测它的查询方式,而一旦查询方式改变,我们就必须重新设计列族。
D)图(Graph-Oriented)数据库[Neo4J]
适用范围很小
四大分类的典型介绍:
KV键值:典型介绍 新浪:BerkeleyDB+redis 美团:redis+tair 阿里、百度:memcache+redis
文档型数据库:典型介绍 CouchDB MongoDB
列存储数据库 Cassandra, HBase 分布式文件系统
图关系数据库 它不是放图形的,放的是关系比如:朋友圈社交网络、广告推荐系统 社交网络,推荐系统等。专注于构建关系图谱 Neo4J, InfoGrid
4.分布式数据库中CAP原理CAP+BASE
SQL和NoSql区别
-
SQL特性介绍
- A:(Atomicity)原子性:
- 整个事务中的所有操作,要么全部完成,要么全部不完成,不可能停滞在中间某个环节。事务在执行过程中发生错误,会被回滚(
Rollback
)到事务开始前的状态,就像这个事务从来没有执行过一样。
- 整个事务中的所有操作,要么全部完成,要么全部不完成,不可能停滞在中间某个环节。事务在执行过程中发生错误,会被回滚(
- C:(Consistency)一致性
- 一个事务可以封装状态改变(除非它是一个只读的)。事务必须始终保持系统处于一致的状态,不管在任何给定的时间并发事务有多少。
- 也就是说:如果事务是并发多个,系统也必须如同串行事务一样操作。其主要特征是保护性和不变性(Preserving an Invariant),
- 以转账案例为例,假设有五个账户,每个账户余额是100元,那么五个账户总额是500元,如果在这个5个账户之间同时发生多个转账,无论并发多少个,比如在A与B账户之间转账5元,在C与D账户之间转账10元,在B与E之间转账15元,五个账户总额也应该还是500元,这就是保护性和不变性
- I:(Isolation)隔离性
- 隔离状态执行事务,使它们好像是系统在给定时间内执行的唯一操作。如果有两个事务,运行在相同的时间内,执行相同的功能,事务的隔离性将确保每一事务在系统中认为只有该事务在使用系统。这种属性有时称为串行化,为了防止事务操作间的混淆,必须串行化或序列化请求,使得在同一时间仅有一个请求用于同一数据。
- D:(Durability)持久性
- 在事务完成以后,该事务对数据库所作的更改便持久的保存在数据库之中,并不会被回滚。
- A:(Atomicity)原子性:
-
NoSQL特性介绍
- C:(Consistency)强一致性
- 任何一个读操作总是能读取到之前完成的写操作结果,也就是在分布式环境中,多点的数据是一致的;
- A:(Availability)高可用性
- 每一个操作总是能够在确定的时间内返回,也就是系统随时都是可用的。
- P:(Partition tolerance)分布式容忍性
- 在出现网络分区(比如断网)的情况下,分离的系统也能正常运行。
- C:(Consistency)强一致性
-
CAP的3进2
-
CAP理论就是说在分布式存储系统中,最多只能实现上面的两点。
而由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容忍性是我们必须需要实现的。 -
所以我们只能在一致性和可用性之间进行权衡,没有NoSQL系统能同时保证这三点。
- C:强一致性 A:高可用性 P:分布式容忍性
- CA 传统Oracle数据库
- AP 大多数网站架构的选择
- CP Redis、Mongodb
- C:强一致性 A:高可用性 P:分布式容忍性
-
注:分布式架构的时候必须做出取舍。一致性和可用性之间取一个平衡。多余大多数web应用,其实并不需要强一致性。 因此牺牲C换取P,这是目前分布式数据库产品的方向
-
-
一致性与可用性的决择
- 对于web2.0网站来说,关系数据库的很多主要特性却往往无用武之地
- **数据库事务一致性需求 **
- 很多web实时系统并不要求严格的数据库事务,对读一致性的要求很低, 有些场合对写一致性要求并不高。允许实现最终一致性。
- 数据库的写实时性和读实时性需求
* 对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出来这条数据的,但是对于很多web应用来说,并不要求这么高的实时性,比方说发一条消息之 后,过几秒乃至十几秒之后,我的订阅者才看到这条动态是完全可以接受的。 - *对复杂的SQL查询,特别是多表关联查询的需求 **
任何大数据量的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的报表查询,特别是SNS类型的网站,从需求以及产品设计角 度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,SQL的功能被极大的弱化了。
经典CAP图
- CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,
- 最多只能同时较好的满足两个。
- 因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三大类:
- CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。
- CP - 满足一致性,分区容忍必的系统,通常性能不是特别高。
- AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。
-
BASE理论
- BASE就是为了解决关系数据库强一致性引起的问题而引起的可用性降低而提出的解决方案。
- BASE其实是下面三个术语的缩写:
- 基本可用(Basically Available)
- 软状态(Soft state)
- 最终一致(Eventually consistent)
- 它的思想是通过让系统放松对某一时刻数据一致性的要求来换取系统整体伸缩性和性能上改观。为什么这么说呢,缘由就在于大型系统往往由于地域分布和极高性能的要求,不可能采用分布式事务来完成这些指标,要想获得这些指标,我们必须采用另外一种方式来完成,这里BASE就是解决这个问题的办法
-
分布式+集群简介
- 分布式:不同的多台服务器上面部署不同的服务模块(工程),他们之间通过
Rpc/Rmi
之间通信和调用,对外提供服务和组内协作。 - 集群:不同的多台服务器上面部署相同的服务模块,通过分布式调度软件进行统一的调度,对外体统服务和访问。
- 分布式:不同的多台服务器上面部署不同的服务模块(工程),他们之间通过