1、什么是NoSQL
NoSQL(NoSQL = Not Only SQL),意即“不仅仅是SQL”,是一项全新的数据库概念,泛指非关系数据库。
2、为什么需要NoSQL
因为传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心。例如:
(1)High performance — 对数据库高并发读写的需求
关系数据库应付每秒上万次的SQL查询还勉强顶得住,但是应付上万次SQL写数据的请求,硬盘io就已经无法承受了。其实对于普通的BBS网站,往往也存在对高并发写请求的需求,例如网站的实时统计在线用户状态,记录热门帖子的点击次数,投票计数等,因此这就是一个相当普遍的需求。
(2)Huge Storage — 对海量数据的高效率存储和访问的需求
类似FaceBook、Twitter、Friendfeed这样的SNS网站,每天用户产生海量的用户动态,以friendfeed为例,一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张2.5亿条记录的表中进行SQL查询,效率是极其低下乃至不可忍受的。再例如大型的web网站的用户登录系统,例如腾讯,盛大,动辄以亿计的账户,关系数据库也难以应付。
(3)High Scalability && High Availability — 对数据高可扩展和高可用性的需求
3、主流的NoSQL产品
● NoSQL数据库的四大分类:
■ 键值(key-value)存储数据库
相关产品:Tokyo Cabinet/Tyrant、Redis、Voldemort/Berkeley DB
典型应用:内存缓存,主要用于处理大量数据的高访问负载。
数据模型:一系列键值对
优势:快速查询
劣势:存储的数据缺少结构化
■ 列存储数据库
相关产品:Cassandra,HBase,Riak
典型应用:分布式的文件系统
数据模型:以列簇式存储,将同一列数据存在一起
优势:查找速度快,可扩展性强,更容易进行分布式扩展
劣势:功能相对局限
■ 文档型数据库
相关产品:CouchDB、MongoDB
典型应用:Web应用(与key-value类似,value是结构化的)
数据模型:一系列键值对
优势:数据结构要求不严格
劣势:查询性能不高,而且缺乏同一的查询语法
■ 图形(Graph)数据库
相关产品:Neo4J、InfoGrid、Infinite Graph
典型应用:社交网络
数据模型:结构图
优势:利用图结构相关算法
劣势:需要对整个图做计算才能得出结果,不容易做分布式的集群方案。
4、NoSQL特点
在大数据存取上具备关系型数据库无法比拟的性能优势,例如:
(1)扩展性
NoSQL数据库种类繁多,但是一个共同的特点就是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。也在无形之间,在架构的层面上带来了可扩展的能力。
(2)大数据量,高性能
NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的机构简单。
(3)灵活的数据模型
NoSQL无需事先为要存储的数据建立字段,随时可以存储定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦。这点在大数据量的web2.0时代尤其明显。
(4)高可用
NoSQL在不太影响性能的情况,就可以方便的实现高可用的架构。比如Cassandra、HBase的模型,通过复制模型也能实现高可用。
综上所述,NoSQL的非关系特性使其成为了后web2.0时代的宠儿,助力大型web2.0网站的再次起飞,是一项全新的数据库革命性运动。