一、NoSQL的风生水起
1.1 后Web2.0时代的发展要求
随着互联网Web2.0网站的兴起,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题:
(1)对数据库高并发读写的需求
网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住,但是应付上万次SQL写数据请求,硬盘IO就已经无法承受了。
(2)对海量数据的高效率存储和访问的需求
对于大型的SNS网站,每天用户产生海量的用户动态,以国外的Friendfeed为例,一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张2.5亿条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的。
(3)对数据库的高可扩展性和高可用性的需求
在基于Web的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,你的数据库却没有办法像Web服务器和应用服务器那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供7*24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移,为什么数据库不能通过不断的添加服务器节点来实现扩展呢?
在上面提到的“三高”的需求面前,关系数据库遇到了难以克服的障碍,而对于Web2.0网站来说,关系数据库的很多主要特性却往往无用武之地,例如:
(1)数据库事务一致性需求
很多Web实时系统并不要求严格的数据库事务,对读一致性的要求很低,有些场合对写一致性要求也不高。因此数据库事务管理成了数据库高负载下一个沉重的负担。
(2)数据库的写实时性和读实时性需求
对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出来这条数据的。并不要求这么高的实时性。
(3)对复杂的SQL查询,特别是多表关联查询的需求
任何大数据量的Web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询,特别是SNS类型的网站,从需求以及产品设计角度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,SQL的功能被极大的弱化了。
因此,关系数据库在这些越来越多的应用场景下显得不那么合适了,为了解决这类问题的非关系数据库应运而生。NoSQL 是非关系型数据存储的广义定义。它打破了长久以来关系型数据库与ACID理论大一统的局面。NoSQL 数据存储不需要固定的表结构(例如以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销),通常也不存在连接操作。
1.2 NoSQL无与伦比的特点
在大数据存取上具备关系型数据库无法比拟的性能优势,例如:
(1)易扩展
NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。也无形之间,在架构的层面上带来了可扩展的能力。
(2)大数据量,高性能
NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。
(3)灵活的数据模型
NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦。这点在大数据量的Web2.0时代尤其明显。
(4)高可用
NoSQL在不太影响性能的情况,就可以方便的实现高可用的架构。比如Cassandra,HBase模型,通过复制模型也能实现高可用。
综上所述,NoSQL的非关系特性使其成为了后Web2.0时代的宠儿,助力大型Web2.0网站的再次起飞,是一项全新的数据库革命性运动。
二、Redis的脱颖而出
随着应用对高性能需求的增加,NoSQL逐渐在各大名企的系统架构中生根发芽。时至今日,涌现出的NoSQL产品已经有很多种了,例如Membase、MongoDB、Apache Cassandra、CouchDB等。不过,在国内外互联网巨头例如社交巨头新浪微博、传媒巨头Viacom及图片分享领域佼佼者Pinterest等名企都不约而同地采用了Redis作为其NoSQL数据库的选择,到底Redis是何方神圣呢?能让如此多的名企为它而痴狂。
按照官方的说法,Redis是一个开源的,使用C语言编写,面向“键/值”(Key/Value)对类型数据的分布式NoSQL数据库系统,特点是高性能,持久存储,适应高并发的应用场景。因此,可以说Redis纯粹为应用而产生,它是一个高性能的key-value数据库,并且还提供了多种语言的API(包括我们的大C#)。那么,也许我们会问:到底性能如何呢?以下是官方的bench-mark数据:
测试完成了50个并发执行100000个请求。设置和获取的值是一个256字节字符串。Linux box是运行Linux 2.6,这是X3320 Xeon 2.5 ghz。文本执行使用loopback接口(127.0.0.1)。结果:读的速度是110000次/s,写的速度是81000次/s 。(当然不同的服务器配置性能也有所不同)。
和Memcached类似,Redis支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,Redis支持各种不同方式的排序。与Memcached一样,为了保证效率,数据都是缓存在内存中。区别的是Redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步(数据可以从主服务器向任意数量的从服务器上同步,从服务器可以是关联其他从服务器的主服务器。)。
因此,Redis的出现,很大程度补偿了Memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。
三、Redis在Windows上的安装与配置
前面介绍了一大堆,现在开始真刀实干!首先,肯定是安装Redis,这里我们选择比较熟悉的Windows平台来进行安装。既然是Windows平台,那么肯定要选择一个Windows版本的Redis安装包(其实NoSQL大部分都是部署在Linux服务器上得,什么原因?大家都懂得,开源+免费=成熟的服务器方案)。
(1)进入GitHub的Redis相关包下载页面:https://github.com/MSOpenTech/redis
Of course,这个地址也是可以的:https://github.com/dmajkic/redis/downloads
(2)选择相应版本,我这里选择的是2.6的版本,点击Download ZIP按钮进行下载;
(3)打开压缩包,可以看到我们下载的其实是一个完整的Redis-2.6的包,包含了bin、src等文件夹,src是源码,而bin则是编译好的执行文件,也是我们主要使用的东东。进入bin目录,可以看到里面又有两个目录,一个是32位操作系统使用的,另一个则是64位操作系统使用的。
(4)我所使用的是64位系统,所以我将redisbin64.zip拷贝出来,解压后移动至我的D:/Redis目录中,可以看到解压后的内容包含以下的一些可执行exe文件:
下面来看看这几个可执行exe文件都是干嘛用的?
①redis-server.exe:服务程序,也是最最最核心的一个程序。说到底,Redis也就是我们服务器系统上一直运行的一个服务甚至就是一个进程而已。
②redis-check-dump.exe:本地数据库检查
③redis-check-aof.exe:更新日志检查
④redis-benchmark.exe:性能测试,用以模拟同时由N个客户端发送M个 SETs/GETs 查询。上面所提到的测试结果就是使用的该程序来进行的。
⑤redis-cli.exe: 服务端开启后,我们的客户端就可以输入各种命令测试了,例如GET、SET等操作;
另外,将刚刚下载的包里边的redis.conf默认配置文件拷贝到工作目录中(我的是D:/Redis),redis.conf主要是一些Redis的默认服务配置,包括默认端口号(一般默认6379)啊之类的配置。
(5)既然我们知道了redis-server.exe是最核心的一个程序,那么我们就首先来将它开启。这里需要在Windows的命令行界面中来开启,首先在运行窗口输入cmd进入命令窗口,使用cd命令切换到指定的目录(我是将刚刚解压的文件放在了D:/Redis文件夹下)
(6)最后就是惊心动魄地开启Redis的服务了,输入一句简单的命令:redis-server.exe redis.conf
这里需要注意的是:开启Redis服务后,命令行窗口不要关闭,一旦关闭,Redis服务也会相应关闭。因此,我们一般会将其改为Windows服务,并且设置为开机自动启动,就像我们数据库服务器中的SQL Server服务和Web服务器中的IIS服务一样。
(7)究竟我们的Redis安装好了没呢?我们可以通过新打开(记得是新打开一个,而不是将原来那个关闭了)一个cmd窗口使用redis-cli.exe来测试一下:redis-cli.exe -h 服务器IP –p 端口
(8)既然每次都需要在命令窗口中开启Redis服务不爽,那我们就动手将其改为Windows服务,让它自动启动。通过在网上查找,我在CSDN找到了一个批处理文件和一个RedisService的可执行文件,并将这两个文件拷贝到指定的Redis目录(我的是D:/Redis):
其中,install-service这个批处理文件的代码如下:
@echo off set cur_path=%cd% sc create redis-instance binpath= "\"%cur_path%\RedisService.exe\" %cur_path%\redis.conf" start= "auto" DisplayName= "Redis"
意思是在我们的Windows中创建一个Redis的服务实例,指定要启动的程序路径与配置文件路径。这里需要注意的是:RedisService是另外的一个exe,不是我们刚刚下载下来就有的,这个RedisService.exe的下载地址为:http://pan.baidu.com/s/1sjrvmTf。启动模式设置为auto代表自动启动,显示的服务名称为Redis。这样,一个bat文件就做好了,点击运行之后,一个Redis的Windows服务也出现在了我们的Windows服务列表中,如下图所示:
四、小结
随着新浪、赶集这些大型网站同一时刻的访问量逐步飙升,但它们却能做到让用户顺利的访问,运用的就是Redis的数据优化处理技术。因此,Redis经过了各大名企的考验,是一个高性能的NoSQL数据库,具有多种实用的用途。那么,我们.Net开发者是否可以借助Redis解决日常开发中遇到的高并发的问题呢,答案是肯定的。下一篇,我们会熟悉一下Redis为我们.Net开发者提供的API,以及Redis中提供的常见的数据类型(多种)等等。最后,衷心感谢本文的参考文献作者,特别是传智播客的王承伟老师,本文是基于其发布的公开课视频学习整理而成,感谢其提供了这么好的公开课教程!
参考文献
(1)传智播客Redis公开课,王承伟主讲,http://bbs.itcast.cn/thread-26525-1-1.html
(2)NoSQL百度百科,http://baike.baidu.com/view/2677528.htm
(3)孙立,《NoSQL开篇—为什么使用NoSQL》,http://www.infoq.com/cn/news/2011/01/nosql-why/
(4)Redis百度百科,http://baike.baidu.com/view/4595959.htm
(5)Ruthless,《Windows下安装Redis》,http://www.cnblogs.com/linjiqin/archive/2013/05/27/3101694.html
(6)张善友,《在Windows上以服务方式运行Redis》,http://www.cnblogs.com/shanyou/archive/2013/01/17/redis-on-windows.html
附件下载
(1)Redis-2.6服务包:http://pan.baidu.com/s/1dDEKojJ
(2)Redis注册Windows服务的批处理文件:http://pan.baidu.com/s/1jGJtNXs
(3)Redis注册Windows服务的启动程序(RedisServcie.exe):http://pan.baidu.com/s/1sjrvmTf