21.1 nosql介绍
什么是NoSQL
• 非关系型数据库就是NoSQL,关系型数据库代表MySQL
关系型数据库的区别,就是可以使用sql语句,而非关系型是没有这些
• 对于关系型数据库来说,是需要把数据存储到库、表、行、字段里,查询的时候根据条件一行一行地去匹配,当量非常大的时候就很耗费时间和资源,尤其是数据是需要从磁盘里去检索
最小的是字段 如果量比较大的时候,是比较好烦资源,因为在存储在磁盘里的
• NoSQL数据库存储原理非常简单(典型的数据类型为k-v),不存在繁杂的关系链,比如mysql查询的时候,需要找到对应的库、表(通常是多个表)以及字段。
• NoSQL数据可以存储在内存里,查询速度非常快
• NoSQL在性能表现上虽然能优于关系型数据库,但是它并不能完全替代关系型数据库
• NoSQL因为没有复杂的数据结构,扩展非常容易,支持分布式
常见NoSQL数据库
• k-v形式的:memcached、redis 适合储存用户信息,比如会话、配置文件、参数、购物车等等。这些信息一般都和ID(键)挂钩,这种情景下键值数据库是个很好的选择。
session,简单讲就是用户登录的信息,在集群session信息共享非常重要
• 文档数据库:mongodb 将数据以文档的形式储存。每个文档都是一系列数据项的集合。每个数据项都有一个名称与对应的值,值既可以是简单的数据类型,如字符串、数字和日期等;也可以是复杂的类型,如有序列表和关联对象。数据存储的最小单位是文档,同一个表中存储的文档属性可以是不同的,数据可以使用XML、JSON或者JSONB等多种形式存储。
• 列存储 Hbase
• 图 Neo4J、Infinite Graph、OrientDB
NoSQL数据库的四大分类
键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.
列存储数据库。
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.
文档型数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。
图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J, InfoGrid, Infinite Graph.
因此,我们总结NoSQL数据库在以下的这几种情况下比较适用:1、数据模型比较简单;2、需要灵活性更强的IT系统;3、对数据库性能要求较高;4、不需要高度的数据一致性;5、对于给定key,比较容易映射复杂值的环境。
NoSQL数据库的四大分类表格分析 分 类 |Examples举例 | 典型应用场景 |数据模型| 优点| 缺点 --|--|--|--|--|-- 键值(key-value)|Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB|内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。| Key 指向 Value 的键值对,通常用hash table来实现|查找速度快|数据无结构化,通常只被当作字符串或者二进制数据 列存储数据库|Cassandra, HBase, Riak | 分布式的文件系统 | 以列簇式存储,将同一列数据存在一起 | 查找速度快,可扩展性强,更容易进行分布式扩展 | 功能相对局限 文档型数据库 | CouchDB, MongoDb | Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) | Key-Value对应的键值对,Value为结构化数据 | 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 | 查询性能不高,而且缺乏统一的查询语法。 图形(Graph)数据库 | Neo4J, InfoGrid, Infinite Graph | 社交网络,推荐系统等。专注于构建关系图谱 | 图结构 | 利用图结构相关算法。比如最短路径寻址,N度关系查找等 | 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。
21.2 memrcached介绍
Memcached介绍
• Memcached是国外社区网站LiveJournal团队开发,目的是为了通过缓存数据库查询结果,减少数据库访问次数,从而提高动态web站点性能。
不支持落地。一旦重启服务,将会丢失;如果数据重要,可以把数据保存到磁盘,重启以后再导入到memcached里
• 官方站点 http://www.memcached.org/
• 数据结构简单(k-v),数据存放在内存里
• 多线程
• 基于c/s架构,协议简单
• 基于libevent的事件处理
• 自主内存存储处理(slab allowcation)
• 数据过期方式:Lazy Expiration 和 LRU
Memcached的数据流向
Slab allocation
Slabs 包含了多个page
pages 包含了多个chunks
chunks 属于最小的单元
Slab Allocation的原理
• 将分配的内存分割成各种尺寸的块(chunk), 并把尺寸相同的块分成组(chunk的集合),每个chunk集合被称为slab。
• Memcached的内存分配以Page为单位,Page默认值为1M,可以在启动时通过 -I 参数来指定。
• Slab是由多个Page组成的,Page按照指定大小切割成多个chunk。
Growth factor(增长因子)
• Memcached在启动时通过-f选项可以指定 Growth Factor因子。该值控制chunk大小的差异。默认值为1.25。
• 通过
memcached-tool
命令查看指定Memcached实例的不同slab状态,可以看到各Item所占大小(chunk大小)差距为1.25
• 命令:
# memcached-tool 127.0.0.1:11211 display
Memcached的数据过期方式
•Lazy Expiration (懒惰的方式)
Memcached 内部不会监视记录是否过期,而是在get时查看记录的时间戳,检查记录是否过期。这种技术被称为lazy(惰性)expiration。因此,Memcached不会在过期监视上耗费CPU时间。
• LRU
Memcached会优先使用已超时的记录的空间,但即使如此,也会发生追加新记录时空间不足的情况,此时就要使用名为Least Recently Used(LRU)机制来分配空间。顾名思义,这是删除“最近最少使用”的记录的机制。因此,当内存空间不足时(无法从slab class获取到新的空间时),就从最近未被使用的记录中搜索,并将其空间分配给新的记录。从缓存的实用角度来看,该模型十分理想。
21.3 安装memcached
基于libevent,如果没有安装会在yum的时候一同安装
yum install -y memcached libmemcached libevent
systemctl start memcached
vim /etc/sysconfig/memcached 可以配置参数
比如加上监听的ip,可以把OPTIONS="" 改为OPTIONS="127.0.0.1"
其中-m指定memcached分配内存
-c指定最大并发数 -u指定运行memcached服务的用户 -l 监听IP
21.4 查看memcachedq状态
•memcached自带的查看状态的工具
memcached-tool 127.0.0.1:11211 stats
[root@aminglinux-02 ~]# memcached-tool 127.0.0.1:11211 stats
#127.0.0.1:11211 Field Value
accepting_conns 1
auth_cmds 0
auth_errors 0
bytes 0
bytes_read 7
bytes_written 0
cas_badval 0
cas_hits 0
cas_misses 0
cmd_flush 0
cmd_get 0
cmd_set 0
cmd_touch 0
conn_yields 0
connection_structures 11
curr_connections 10
curr_items 0
decr_hits 0
decr_misses 0
delete_hits 0
delete_misses 0
evicted_unfetched 0
evictions 0
expired_unfetched 0
get_hits 0
get_misses 0
hash_bytes 524288
hash_is_expanding 0
hash_power_level 16
incr_hits 0
incr_misses 0
libevent 2.0.21-stable
limit_maxbytes 67108864
listen_disabled_num 0
pid 2724
pointer_size 64
reclaimed 0
reserved_fds 20
rusage_system 0.001455
rusage_user 0.001455
threads 4
time 1508042446
total_connections 11
total_items 0
touch_hits 0
touch_misses 0
uptime 3
version 1.4.15
需要关注
get_hist 命中了多少
curr_items memcached里面的项目
平常关注的是 get_hist/curr_items 得出的结果,计算出命中率数值
命中率的目的,是要确认,memcached缓存了数据,而且还有请求,如果光缓存却没有请求,那么做这个缓存也就没有意义了。。
查看cmd_set 总共有多少个项目
• 或者echo stats |nc 127.0.0.1 11211
需要安装nc工具
yum install -y nc
这个查看到的结果和 memcached-tool的结果一致
• 若安装libmemcached后,可以使用命令
查看memcached服务状态
memstat --servers=127.0.0.1:11211
这个可以用于查看远程memcache机器的结果,查看到的结果和memcached-tool的结果很像