Cassandra内核介绍--写操作（转载）

最新推荐文章于 2024-10-21 09:35:00 发布

fengyonglei

最新推荐文章于 2024-10-21 09:35:00 发布

阅读量336

点赞数

分类专栏： nosql 文章标签： cassandra 数据中心集群 postgresql 磁盘存储

nosql 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

我们已经开始在OneSpot使用Cassandra来作为我们下一代的存储引擎(使用一个EC2的机器集群代替一台非常大的PostgreSQL机器),因此,之前几周的时间我一直在使用Cassandra. 由于我本人是一个基础设施方面的书呆子,并且坚信需要理解系统堆栈的各个层面,因为我阅读了部分关于Cassandra如何工作的资料,并且想写出点总结以期对后来者有所帮助.由于Cassandra的写性能表现卓越这一点众所周知,我认为我的介绍应该由此开始.

需要理解的第一件事是,Cassandra最好运行在多台机器上.据我所知,Twitter使用了一个45台机器组成的集群.在一台机器上运行Cassandra可能不是很有意义,因为你将失去没有单点故障的系统的优势.

客户端向一个随机的Cassandra节点发出一个写请求.这个节点作为代理往集群写入数据.节点的集群存储在一个节点”环”上,写会按照复制放置策略(replication placement strategy)复制到N个节点上.当使用RackAwareStrategy策略时,为了保证可靠性(reliability)与可用性(Availability), Cassandra会按照复制节点到当前节点的距离将复制节点分为3个桶:与当前节点位于同一机架、与当前节点位于同一数据中心、或位于不同的数据中心.你配置了Cassandra写数据到N个节点来做冗余,Cassandra会将第一份拷贝写入到此数据的主节点,第二份拷贝到环上的位于另一个数据中心的节点,剩余的其它拷贝到与代理节点位于同一个数据中心的机器上.这样就可以确保单点故障不会导致整个集群不可用,即使在整个数据中心都不可用时集群仍然保持可用.

因此,写请求从你的客户端出发到单一随机节点,此节点根据复制放置策略将写操作发送到N个不同的节点.我没有在此讨论很多~~边缘用例~~极端情况(节点宕机、集群中新增节点、等等),但是,节点需要等待N个节点返回成功并返回成功给客户端.(此处的描述有问题,Cassandra中,还有另外一个W的参数,也就是需要等待几份写拷贝成功才返回成功给客户端,译者加).

节点中的每一个都会以”RowMutation”消息的形式接收到此写请求.对于此消息,节点会采取以下两种行动: