大话Cassandra数据模型

最新推荐文章于 2020-12-22 11:08:43 发布

gpcuster

最新推荐文章于 2020-12-22 11:08:43 发布

阅读量1.2k

点赞数

分类专栏：分布式 Java Hadoop 文章标签： cassandra schema 数据库 email json 扩展

本文链接：https://blog.csdn.net/gpcuster/article/details/5375704

版权

Java 同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

分布式

9 篇文章 0 订阅

订阅专栏

Hadoop

9 篇文章 0 订阅

订阅专栏

Cassandra是一个开源的分布式数据库，结合了Dynamo的Key/Value与Bigtable的面向列的特点。

Cassandra的特点如下：

1.灵活的schema：不需要象数据库一样预先设计schema，增加或者删除字段非常方便（on the fly）。

2.支持range查询：可以对Key进行范围查询。

3.高可用，可扩展：单点故障不影响集群服务，可线性扩展。

我们可以将Cassandra的数据模型想象成一个四维或者五维的Hash。

Column

Column是Cassandra中最小的数据单元。它是一个3元的数据类型，包含：name，value和timestamp。

将一个Column用JSON的形式表现出来如下：

 
{  // 这是一个column 
   
    name: "逖靖寒的世界", 
   
    value: "gpcuster@gmali.com", 
   
    timestamp: 123456789 
   
}

为了简单起见，我们可以忽略timestamp。就把column想象成一个name/value即可。

注意，这里提到的name和value都是byte[]类型的，长度不限。

SuperColumn

我们可以将SuperColumn想象成Column的数组，它包含一个name，以及一系列相应的Column。

将一个SuperColumn用JSON的形式表现如下：

 
{   // 这是一个SuperColumn 
   
    name: "逖靖寒的世界", 
   
    // 包含一系列的Columns 
   
    value: { 
   
        street: {name: "street", value: "1234 x street", timestamp: 123456789}, 
   
        city: {name: "city", value: "san francisco", timestamp: 123456789}, 
   
        zip: {name: "zip", value: "94107", timestamp: 123456789}, 
   
    } 
   
}

Columns和SuperColumns都是name与value的组合。最大的不同在于Column的value是一个“string”，而SuperColumn的value是Columns的Map。

还有一点需要注意的是：SuperColumn’本身是不包含timestamp的。

ColumnFamily

ColumnFamily是一个包含了许多Row的结构，你可以将它想象成RDBMS中的Table。

每一个Row都包含有client提供的Key以及和该Key关联的一系列Column。

我们可以看看结构：

 
UserProfile = { // 这是一个ColumnFamily 
   
    phatduckk: {   // 这是对应ColumnFamily的key 
   
        // 这是Key下对应的Column 
   
        username: "gpcuster", 
   
        email: "gpcuster@gmail.com", 
   
        phone: "6666" 
   
    }, // 第一个row结束 
   
    ieure: {   // 这是ColumnFamily的另一个key 
   
        //这是另一个Key对应的column 
   
        username: "pengguo", 
   
        email: "pengguo@live.com", 
   
        phone: "888" 
   
        age: "66" 
   
    }, 
   
}

ColumnFamily的类型可以为Standard，也可以是Super类型。

我们刚刚看到的那个例子是一个Standard类型的ColumnFamily。Standard类型的ColumnFamily包含了一系列的Columns（不是SuperColumn）。

Super类型的ColumnFamily包含了一系列的SuperColumn，但是并不能像SuperColumn那样包含一系列Standard ColumnFamily。

这是一个简单的例子：

 
AddressBook = { // 这是一个Super类型的ColumnFamily 
   
    phatduckk: {    // key 
   
        friend1: {street: "8th street", zip: "90210", city: "Beverley Hills", state: "CA"},  
   
        John: {street: "Howard street", zip: "94404", city: "FC", state: "CA"}, 
   
        Kim: {street: "X street", zip: "87876", city: "Balls", state: "VA"}, 
   
        Tod: {street: "Jerry street", zip: "54556", city: "Cartoon", state: "CO"}, 
   
        Bob: {street: "Q Blvd", zip: "24252", city: "Nowhere", state: "MN"}, 
   
        ... 
   
    }, // row结束 
   
    ieure: {     // key 
   
        joey: {street: "A ave", zip: "55485", city: "Hell", state: "NV"}, 
   
        William: {street: "Armpit Dr", zip: "93301", city: "Bakersfield", state: "CA"}, 
   
    }, 
   
}

Keyspace

Keyspace是我们的数据最外层，你所有的ColumnFamily都属于某一个Keyspace。一般来说，我们的一个程序应用只会有一个Keyspace。

简单测试

我们将Cassandra运行起来以后，启动命令行，执行如下操作：

cassandra> set Keyspace1.Standard1['jsmith']['first'] = 'John'
Value inserted.
cassandra> set Keyspace1.Standard1['jsmith']['last'] = 'Smith'
Value inserted.
cassandra> set Keyspace1.Standard1['jsmith']['age'] = '42'
Value inserted.

这个时候，Cassandra中就已经有3条数据了。

其中插入数据的各个字段含义如下：

set Keyspace1.Standard1['jsmith']['first'] = 'John'
     /                /         /        /          /
      /                /         /_ key /          /_ value
       /                 /                  /_ column
        /_ keyspace /_ column family

接下来，我们执行查询操作：

cassandra> get Keyspace1.Standard1['jsmith']
(column=age, value=42; timestamp=1249930062801)
(column=first, value=John; timestamp=1249930053103)
(column=last, value=Smith; timestamp=1249930058345)
Returned 3 rows.

这样，我们就可以将之前插入的数据查询出来了。