Cassandra使用pycassa批量导入数据

最新推荐文章于 2024-01-09 08:20:53 发布

anzhsoft

最新推荐文章于 2024-01-09 08:20:53 发布

阅读量1.2w

点赞数 2

分类专栏：架构探索云计算

本文链接：https://blog.csdn.net/anzhsoft/article/details/38906535

版权

本文介绍了Cassandra的基本概念和特点，包括其分布式网络服务、模式灵活性和真正的可扩展性等。然后详细讲解了Cassandra的基础命令，如连接、检查schema和列出列族。最后，通过一个实例展示了如何使用pycassa Python库进行批量数据导入。

摘要由CSDN通过智能技术生成

本周接手了一个Cassandra系统的维护工作，有一项是需要将应用方的数据导入我们维护的Cassandra集群，并且为应用方提供HTTP的方式访问服务。这是我第一次接触KV系统，原来只是走马观花似的看过KV啊，NoSQL啊。但是实际上没有实际的使用经验。经过两天的学习和接手，终于搞明白了在生产环境中的使用方式。在此简要的笔记一下。本文主要包括的内容有：

Cassandra的简介，

Cassandra的相关CLI

Cassandra的Python API，并且给出一个批量导入数据的例子。

1. Cassandra简介

Cassandra的主要特点就是它不是一个数据库，而是由一堆数据库节点共同构成的一个分布式网络服务，对Cassandra 的一个写操作，会被复制到其他节点上去，对Cassandra的读操作，也会被路由到某个节点上面去读取。对于一个Cassandra群集来说，扩展性能是比较简单的事情，只管在群集里面添加节点就可以了。

Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比 Dynomite（分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB（介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型。）Cassandra最初由Facebook开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族（Column Family）的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。

和其他数据库比较，有几个突出特点：