概览
事件流的分析
druid 提供了快速的分析查询一个高并发,在实时节点和历史节点上;强大的用户交互界面;
重构思想
新型数据库,主要思想来自 OLAP/analytic databases,timerseries database,search systems在这个实时架构中;
构建下一代数据栈
原生集成了kafka AWS KinesiS 数据湖 HDFS AWS S3;工作时,有良好的层次的数据流查询架构。
解锁新的工作流程
构建了一个快速的特别分析在实时数据和历史数据两个方面;解释趋势,探索数据,快速查询回答问题。
任何地方部署
在任何×NIX环境中部署,商业硬件和云上部署都支持;原生云支持:扩容和减少非常简单。
定义
druid是一个为高性能、在大量数据集上分片和分块分析 而设计的数据存储
公共应用场景领域
点击流分析
网络流量分析
服务器指标存储
应用性能指标
数字营销分析
商业智能/OLAP
应用场景
大比例的插入操作,少量的更新操作
大部分查询应用聚合和报告查询使用group by、查询或者扫描操作
数据有一个时间列
load data from kafka HDFS Amazon S3
关键特征
列存储格式
druid使用面向列的存储,对一个特定的查询只需要加载需要的列,面对少量列的查询有了一个速度的大幅提升,每一个列的存储针对特定的数据类型做了存储优化,支持快速扫描和聚合。
可扩展的分布式系统
druid是一个典型的十到数百台的集群服务部署,每秒百万级的数据摄取,保留数万条记录,亚秒级到几秒钟的查询延迟。
大规模并行处理
druid一个查询并行处理在整个集中。
自健康检查 自平衡 简单操作
扩大集群,增加、减少服务,这样的操作集群会自动平衡,无需停机,如果一个服务失败,路由会自动绕个这个服务,直到找到可以替换的服务。druid设计成一个无需任何原因7×24小时不停机的运行的架构,包括配置修改,软件升级.
原生云的 默认容错不会丢失数据的架构
一旦druid摄取了数据,一个copy会被安全的存储到deep storage,例如HDFS、云存储、一个共享的文件系统中;及时每一个服务挂了,数据可以从deep s