低调奢华有内涵的敏捷式大数据方案：Cassandra+Presto(结合SpagoBI+Flume)

最新推荐文章于 2024-09-15 23:53:54 发布

TheoGo

最新推荐文章于 2024-09-15 23:53:54 发布

阅读量2.4k

点赞数

分类专栏：大数据

大数据专栏收录该内容

11 篇文章 0 订阅

订阅专栏

转载文章的发布日期：2014-10-10 20:40:28

1 概述

“Ad-hoc analysis over Cassandradata with Facebook Presto”一文，对Cassandra+Presto

结合实现大数据即席分析进行了介绍。Presto是为满足交互式即席查询需求而优化的分布式SQL查询引擎。它支持标准ANSI SQL，包括复杂查询，聚合，连接和窗口函数。

Cassandra以前缺少交互式即席查询功能，甚至在CQL中不支持聚合函数。因为这个原因，Cassandra在作为数据库使用时经常被混淆。分析Cassandra中的数据有下边两个框架：

1) Hadoop MapReduce

2) Spark andShark

Hadoop MapReduce用于即席查询绝对够慢的。Spark的RDD模型是很快的，但是运行查询需要多次练习。Presto是可以完全独立的运行Cassandra数据的SQL引擎。Presto的架构如下：

Presto系统架构

从上图中可以看出Presto的执行模型完全不同于Hive/MapReduce。Hive在执行一个MapReduce任务到另外一个时，需要将查询转换到多个阶段。每一个任务需要从磁盘读取数据并将中间的输出写入磁盘。相反，Presto引擎不要使用MapReduce。它采用了自定义查询和执行引擎设计，支持SQL。另外，改进了调度，所有的处理是在内存中进行，并在整个阶段之间，通过网络，采用流水线处理，从而避免了不必要的I/ O和相关的延迟开销。流水线执行模型每个阶段只运行一次，流数据从一个阶段到下一个阶段，没有中间停顿，这显著减少了各种查询的端至端时间延迟。

1.1 Cassandra

Apache Cassandra 是一套开源分布式 KeyValue 存储系统。Cassandra 不是一个数据库，它是一个混合型的非关系的数据库。它以Amazon专有的完全分布式的Dynamo 为基础，结合了Google BigTable 基于列族(Column Family)的数据模型。

1.1.1 特点

1) 分布式；

2) 高扩展性；

3) 多数据中心；

4) 分布式写操作；

5) 一致性哈希

6) GoSSIP协议简化集群管理

7) 实时更新

8) 高效的数据压缩

Cassandra最突出的特点是写性能优异，支持高并发、实时更新。

1.1.2 系统架构

Cassan架构dra系统

1.2 Presto

Presto是Facebook最新研发的数据查询引擎，可对250PB以上的数据进行快速地交互式分析。据称该引擎的性能是 Hive 的 10 倍以上。Presto 是一个分布式系统，运行在集群环境中，完整的安装包括一个协调器 (coordinator) 和多个 workers。查询通过例如 Presto CLI 的客户端提交到协调器，协调器负责解析、分析和安排查询到不同的 worker 上执行。

此外，Presto 需要一个数据源来运行查询。当前 Presto 包含支持Cassandra、Hive 的插件。

1.2.1 特点

1) 分布式；

2) 内存计算；

3) ANSI-SQL语法支持；

4) JDBC 驱动

5) 用于从已有数据源中读取数据的“连接器”集合。连接器包括：HDFS、Hive和Cassandra

1.2.2 系统架构

注：在连接Cassandra数据源时，不需要安装Hive，也不需要HDFS。

2 环境准备

2.1 主机

IP	HOSTNAME	部署模块
192.168.0.40	NODE1	Cassandra Presto
192.168.0.41	NODE2	Cassandra Presto
192.168.0.42	NODE3	Cassandra Presto
192.168.0.43	NODE4	Cassandra Presto
192.168.0.44	NODE5：Cassandra seed Presto Coordinator	Cassandra Presto
192.168.0.45	NODE6	Cassandra Presto
192.168.0.46	NODE7	Cassandra Presto
192.168.0.47	NODE8	Cassandra Presto

2.2 用户

使用Hbase用户

[root@master ~]# useradd hbase

[root@master ~]# passwd hbase

Changing password for user hbase.

New password:

BAD PASSWORD: it is based on a dictionary word

BAD PASSWORD: is too simple

Retype new password:

passwd: all authentication tokens updated successfully.

以上命令须在8台机器上分别执行

2.3 程序包

程序名称	说明
apache-cassandra-2.0.10.tar.gz	Cassandra安装程序
presto-server-0.75.tar.gz	Presto安装程序

2.4 hosts

第一步：修改hosts文件

[root@master java]# vi /etc/hosts

hosts文件中添加，并在其它节点依次复制以下配置：

192.168.0.40 node1

192.168.0.41 node2

192.168.0.42 node3

192.168.0.43 node4

192.168.0.44 node5

192.168.0.45 node6

192.168.0.46 node7

192.168.0.47 node8

2.5 SSH互信

分别在8台主机上执行以下命令：

[hadoop@master ~]$ ssh-keygen -t rsa -P ""

Generating public/private rsa key pair.

Enter file in which to save the key (/home/hbase/.ssh/id_rsa):

Created directory '/home/ hbase /.ssh'.

Your identification has been saved in /home/hbase/.ssh/id_rsa.

Your public key has been saved in /home/hbase/.ssh/id_rsa.pub.

The key fingerprint is:

93:fd:d4:b7:27:aa:10:25:66:a7:c8:b6:e6:31:4c:18 hbase @master

The key's randomart image is:

+--[ RSA 2048]----+

| |

| E + o |

| + + B . |

| . = S . . . .|

| + . o o ..|

| * . . ...|

| o o . . ..|

| . ... |

+-----------------+

[hbase@master .ssh]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hbase@master .ssh]$ chmod 600 ~/.ssh/authorized_keys

在node5主机执行如下命令，并将完整的authorized_keys分发到各台主机：

[hbase@master .ssh]$ scp authorized_keys hbase@slave1:~/.ssh/

hbase@slave1's password:

authorized_keys 100% 1990 1.9KB/s 00:00

其它节点依次同样处理。

测试node5节点到各个slave节点的ssh可用性：

[hbase@master .ssh]$ ssh slave1

Last login: Wed Aug 7 22:24:19 2013 from 192.168.0.25

[hbase @slave1 ~]$ exit

logout

Connection to slave1 closed.

其它节点依次类推。

2.6 基础环境

已经安装jdk1.7_51

3 程序安装

3.1 assandra

3.1.1 第一步：解压

[hbase@ node5 ~]$ tar -xzf apache-cassandra-2.0.10.tar.gz

3.1.2 第二步：修改cassandra.yaml

[hbase@ node5 ~]$ cd apache-cassandra-2.0.10/conf/

[hadoop@slave1 conf]$ vi cassandra.yaml

cassandra.yaml内容

…

cluster_name: 'sunrise Cluster'

- seeds: "192.168.0.44" --> - seeds: "node IP address"

data_file_directories:

- /home/hbase/cassandra/data

commitlog_directory: /home/hbase/cassandra/commitlog

saved_caches_directory: /home/hbase/cassandra/saved_caches

listen_address: 192.168.0.44

native_transport_port: 9042

rpc_address: 192.168.0.44

rpc_port: 9160

…

cluster_name：这个配置项是用来标识集群名称的。

data_file_directories：这个配置项是用来配置Cassandra数据目录的。

commitlog_directory: 这个配置项是用来配置Cassandra提交日志目录的。

saved_caches_directory：这个配置项是用来配置Cassandra缓存目录的。

listen_address：这个配置项定义了集群中其他节点的连接方式。所以多节点的集群必须将这个改成他实际的网卡地址。

rpc_address：这个配置项定义了这个节点在哪里监听客户端。所以可以跟node的IP地址一样，或者设置为0.0.0.0，如果我们想在所有的可用网卡接口上监听的话。

Seeds：seeds作为连接点，当一个新的节点加入到集群中的时候，他联系seeds得到其他节点的一些基础信息。所以在多节点中，作为种子的节点必须是所有的节点都可以通过路由连接到的。注：在多节点的集群中，最好拥有多个seeds。多个节点作为seeds可以通过如下方式定义。

3.1.3 第三步：测试

启动：

Node1 – node8

[hbase@node5 cassandra

查看状态

Node5

[hbase@node5 apache-cassandra-2.0.10]$ ./bin/nodetool -host 192.168.0.44 -p 7199 status

UN 192.168.0.45 215.5 KB 256 12.8% 55a15b62-b3a9-4fa3-ad76-284ce8132ff5 rack1

UN 192.168.0.44 204.95 KB 256 11.6% 4b736f9e-d904-4d69-80f3-66492a1a0344 rack1

UN 192.168.0.47 207.25 KB 256 13.7% 0744e75b-dc9e-4be3-9cd4-9a803f141abb rack1

UN 192.168.0.46 202.26 KB 256 12.4% e2087e1a-6c06-4b24-9355-f27890b0e9c6 rack1

UN 192.168.0.41 180.9 KB 256 13.0% 7aac038a-8bf7-45d7-b385-a2c434ed96ff rack1

UN 192.168.0.40 189.13 KB 256 12.7% de8cb5e2-fce3-4735-bfc0-c21f51b1e7d8 rack1

UN 192.168.0.43 184.23 KB 256 12.3% 3ef670c3-d61e-406f-b853-20a06747cd21 rack1

UN 192.168.0.42 184.83 KB 256 11.5% 3055f3e2-7003-440c-a198-e7ff7c862ec0 rack1

创建keyspace、user表、插入数据

Node5

[hbase@node5 apache-cassandra-2.0.10]$ ./bin/cqlsh -u cassandra -p cassandra 192.168.0.44 9160

[cqlsh 4.1.1 | Cassandra 2.0.10 | CQL spec 3.1.1 | Thrift protocol 19.39.0]

Use HELP for help.

cqlsh> CREATE KEYSPACE munion_db WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 2 };

cqlsh>use munion_db;

cqlsh>create table users(user_id int primary key, fname varchar,lname varchar);

cqlsh> INSERT INTO users (user_id, fname, lname) VALUES (1744, 'john', 'smith');

cqlsh> INSERT INTO users (user_id, fname, lname) VALUES (1745, 'john', 'doe');

cqlsh> INSERT INTO users (user_id, fname, lname) VALUES (1746, 'john', 'smith');

cqlsh> INSERT INTO users (user_id, fname, lname) VALUES (1747, '测试', '测试');

cqlsh>select * from users;

user_id | fname | lname

---------+-------+---------

1744 | john | smith

1745 | john | doe

1746 | john | smith

1747 | 测试| 测试

3.2 Presto

3.2.1 第一步：解压

[hbase@node5~]$ tar -xzf presto-server-0.75.tar.gz

[hbase@node5~]$ cd presto-server-0.75

3.2.2 第二步：配置node.Properties

配置文件内容：

node.environment=pretest

node.id=node5

node.data-dir=/home/hbase/presto-server-0.57/presto/data

3.2.3 第三步：配置jvm.config

配置文件内容：

node.environment=pretest

node.id=node5

node.data-dir=/home/hbase/presto-server-0.57/presto/data

[hbase@node5 etc]$ cat jvm.config

-server

-Xmx6G

-XX:+UseConcMarkSweepGC

-XX:+ExplicitGCInvokesConcurrent

-XX:+CMSClassUnloadingEnabled

-XX:+AggressiveOpts

-XX:+HeapDumpOnOutOfMemoryError

-XX:OnOutOfMemoryError=kill -9 %p

-XX:PermSize=150M

-XX:MaxPermSize=150M

-XX:ReservedCodeCacheSize=150M

-Xbootclasspath/p:/home/hbase/presto-server-0.57/lib/floatingdecimal-0.1.jar

-Djava.library.path=/home/hbase/hadoop/lib/native/Linux-amd64-64>

3.2.4 第四步：配置config.properties

配置文件内容

coordinator=true #node5,其他节点设为false

#node-scheduler.include-coordinator=false

http-server.http.port=40000

task.max-memory=1GB

discovery-server.enabled=true

discovery.uri=http://node5:40000

3.2.5 第五步：配置log.properties

com.facebook.presto=INFO

3.2.6 第六步：配置CatalogProperties

编辑Catalog Properties文件，添加如下内容

connector.name=cassandra

cassandra.contact-points=node1,node2,node3,node4,node5,node6,node7,node8

3.2.7 第七步：测试

启动Presto，命令如下：

[hbase@node5 ~]$ cd /home/hbase/presto-server-0.75

[hbase@node5 ~]$./bin/launcher start

[hbase@node5~]$./presto --server 192.168.0.44:40000 –catalog cassandra --schema munion_db

presto:munion_db>select * from users;

presto:munion_db> user_id | fname | lname

---------+-------+---------

1744 | john | smith

1745 | john | doe

1746 | john | smith

1747 | 测试| 测试

4 功能测试

4.1 SQL支持

Create tabe/view：只支持Createtabe/view as select …

支持连接：Inner join、left join、right join

聚合函数：支持count、max、min等

4.2 数据导入

支持insert操作；

支持copy导入数据；

支持kettle导入数据；

4.3 JDBC支持

支持程序使用JDBC接口；

Java客户端调用JDBC出错；

报表工具连接JDBC源有待验证；

5 性能测试

未做。

6 总结

相对于Hadoop/Hive/HBase/Spark，Cassandra+Presto不失为一种大数据的敏捷方案。

Kettle提供了Cassandra的ETL组件，CQLSH提供了类似于ER的数据模型，Presto提供了跨数据源的交叉查询能力，并提供了丰富的SQL功能。此外，JDBC驱动提供了对程序、客户端工具及报表工具的连接能力。

7 未尽…

因为时间和人力资源限制，不得不停止Cassandra+Presto的测试验证工作，进一步的性

能测试也没能去测。尽管如此，该方案仍然可认为是可行的。也许，在将来某个时间，Cassandra+Presto将被重新提及，并被采用。

Presto升级很快，现在已经到了0.78版本，在0.77中已经实现了分布式Hash功能，尽管还处于试验阶段。相对与Hadoop/HBase/Hive/Spark来说，采用Flume+Cassandra+Presto+SpagoBI无疑是一个敏捷的大数据解决方案。希望能对准备使用大数据的同道们有所帮助！

出处：http://www.it165.net/database/html/201410/8459.html