看来我始终是于数据脱不了干系,心里也是始终渴望这探求这一领域。
本科自学数据挖掘,当初考研也是数据挖掘,继走马观花地看了BigTable的架构之后,终于真正踏上了研究之旅,并希望能在近期能真正用起来。实践中再巩固,提升。
今天看的文章是:
分布式 Key-Value 存储系统:Cassandra 入门
http://www.ibm.com/developerworks/cn/opensource/os-cn-cassandra/
Cassandra 的数据模型是基于列族(Column Family)的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点,采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前,需要先记录日志 ( CommitLog ),然后数据开始写入到 Column Family 对应的 Memtable 中,Memtable 是一种按照 key 排序数据的内存结构,在满足一定条件时,再把 Memtable 的数据批量的刷新到磁盘上,存储为 SSTable 。
//Memtable
//SSTable
//CommitLog
这文章原理性的东西不多,主要是些配置以及使用的细节。
# wget http://labs.renren.com/apache-mirror/cassandra/0.6.0/apache- |
bin | 存放与 Cassandra 操作的相关脚本 |