Brisk——针对低延迟应用与Hadoop/Hive分析的统一大数据平台

最新推荐文章于 2020-09-16 20:41:28 发布

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖

最新推荐文章于 2020-09-16 20:41:28 发布

阅读量127

点赞数

本文链接：https://blog.csdn.net/cpongo4/article/details/89125885

版权

两大主流BigTable开源实现之间的竞争——HBase和Cassandra加速了DataStax推出其新产品，即Brisk，一款基于Cassandra的Hadoop分布式实现。DataStax产品副总裁Ben Werther谈到：

我们的想法是推出一款独一无二的平台，使其既能为“实时”web范围应用提供低延迟数据库，又能利用Hadoop提供的各种各样丰富的数据分析功能。我们从业界所得知的一个需求是，他们需要一个完整的大数据视图，从实时低延迟应用贯穿到可用来进行数据分析的工具，以及使用这些工具把分析结果数据反馈回应用的能力。

Tim Estes，Digital Reasoing的CEO对此做了进一步解释：

通过把Cassandra的能力——包括其简易性、可伸缩性和快速读写性——结合到Hadoop上，DataStax已经创建了一个能够加快从数据创建到数据分析速度的强大系统。我们可以借用部分Cassandra提供的独特功能来帮助那些存在多个数据中心并且需要处理大量复杂数据的项目。我们非常激动能够和DataStax小组合作，把这些功能介绍给一些对此有很高期望的用户——尤其是国防情报部门。

当Cassandra的缔造者——Facebook——因为HBase强大的一致性特点而开始为其社交邮件产品放弃Cassandra转向HBase时，DataStax则选择了相反的一条道路，结合Cassandra和Hadoop。Ben Werther——DataStax产品副总裁对此说到：

HBase成熟度没有Cassandra那么高，而且它构建在HDFS（Hadoop分布式文件系统）之上，在可伸缩性和可靠性方面会面临一些挑战……Cassandra可以为Hadoop堆栈低级别部分的所有功能提供服务，而与此同时在同一基础设施中又能提供低延迟实时应用的功能。此外，Cassandra的设计初衷就是可以让部分Brisk基础设施关注于数据分析，而另一部分处理低延迟应用。当你往Hive里写查询语句或者使用Hive进行优化时，你可以把它作为一个实时基础设施，即插即用。

Brisk包括了Hadoop MapReduce和Hive，使你可以跨多个商用硬件集群做特大数量的计算工作。但为了兼容Cassandra提供的存储层，需要对Hadoop HDFS文件系统进行切换。同时，你还是可以使用Cassandra本有的功能：为实时应用设计的数据库。也就是说，Brisk不会消除一些Hadoop中的单点失效。根据开发者文档，Hadoop/Casssandra集群配置依然需要：

集群里应该提供一个服务器给如下Hadoop组件专用：\
JobTracker\
datanode\
namenode\
\该专属服务器是必需的，这是因为Hadoop使用HDFS来存储你工作所需的JAR依赖项、静态数据以及其他必需的信息。在你集群的整个环境下，这些虽然都是很少量的数据，但是对运行MapReduce工作来说非常重要。

目前，Brisk还有点在纸上谈兵。因为该平台还没有正式使用到生产系统中，甚至还没有开源。但无论如何，这都是吸引人眼球的构想。

查看英文原文：Brisk - Unified Big-Data Platform for Low-Latency Applications and Hadoop/Hive Analytics