[翻译]Druid 开篇－大数据实时探索性分析平台

最新推荐文章于 2021-10-15 18:03:23 发布

DerekJiang

最新推荐文章于 2021-10-15 18:03:23 发布

阅读量9.9k

点赞数

分类专栏： Druid

本文链接：https://blog.csdn.net/derekjiang/article/details/42550991

版权

Druid 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在研究Druid，而且项目组中也有应用Druid的需求，本着勤奋好学勇于总结的想法，打算写个Druid的专辑，从翻译Druid的官方文档开始，夹杂些个人的总结，帮助自己去更好的理解和记忆

————翻译自 http://druid.io/docs/0.6.143/--------

什么是Druid

Druid 是一个开源的，能够在大型数据集 (100’s of Billions entries, 100’s TB data)上面提供实时试探性查询的分析数据存储，Druid提供了廉价的，并且是持续的实时数据集成和任意数据探索的能力。

Druid的主要功能

为分析而生 - Druid是为了解决在OLAP workflows中进行探索分析而生的. 它提供了大量的filters, aggregators和 query 类型，并且提供了一个允许用户自定义插件从而来实现新功能的框架. 用户可以利用Druid的系统架构很简单的开发类似于top K和直方图等功能。
交互式查询 - Druid的低延时数据集成框架允许数据在生成之后的毫秒范围之内就可以被用户查询到。Druid通过读且只读需要的数据来优化查询的时延。
高可用性 - Druid可以被用来实现需要持续提供服务的SaaS应用。即使是在系统升级的过程中，你的数据仍然可以被查询。而且Druid cluster的扩容或者缩减不会带来数据的丢失。
可扩展性 - 现有的Druid系统可以很轻松的处理每天数十亿条记录和TB级别的数据。Druid本身是被设计来解决PB级别数据的。

为什么要用Druid?

Druid的初衷是为了解决在使用Hadoop进行查询时所遇见的高时延问题来满足交互性服务的需求的。尤其是当你对data进行汇总之后并在你汇总之后的数据上面进行查询时效果更好。将你汇总之后的数据注入Druid，随着你的数据量在不断增长，你仍然可以对Druid的查询能力非常有信心。当前的Druid安装实例已经可以很好的处理以2TB每小时实时递增的数据量。

你可以在拥有Hadoop的同时创建一个Druid系统。Druid提供了以一种互动切片、切块方式来访问数据的能力，它在查询的灵活性和存储格式直接寻找平衡从而来提供更好的查询速度。

如果想了解更多细节，请参考 White Paper 和 Design 文档.

什么情况下需要Druid?

当你需要在大数据集上面进行快速的，交互式的查询时
当你需要进行数据分析，而不只是简单的键值对存储时
当你拥有大量的数据时 (每天新增数百亿的记录、每天新增数十TB的数据)
当你想要分析实时产生的数据时
当你需要一个24x7x365无时无刻不可用的数据存储时

什么情况下不需要用Druid?

当数据量可以在MySQL中很轻松的处理时
当你在查询某一天具体的记录而不是做分析时
当批量数据集成对你来说已经足够好的情况下
当你只需要执行固定的查询时
当系统偶尔down也没什么大不了的时候

Druid vs…

DerekJiang

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
[翻译]Druid 开篇－大数据实时探索性分析平台

最近在研究Druid，而且项目组中也有应用Druid的需求，本着勤奋好学勇于总结的想法，打算写个Druid的专辑，从翻译Druid的官方文档开始，夹杂些个人的总结，帮助自己去更好的理解和记忆————翻译自http://druid.io/docs/0.6.143/--------什么是DruidDruid 是一个开源的，能够在大型数据集 (100’s
复制链接

扫一扫