OLAP
greensea669
厚积薄发
展开
-
Druid.IO简介系列之一:Druid核心功能及其应用场景
本文翻译自:http://druid.io/docs/latest/design/Druid是可以在大数据集上面进行交叉分析的高性能OLAP系统。Druid通常作为强大的分析交互系统的后端存储组件,或者为高并发API提供快速的聚合的能力。druid的典型应用场景如下:点击流分析(Clickstream analytics)网络流分析(Network flow analytics)存储服务...翻译 2019-03-04 23:28:50 · 1369 阅读 · 0 评论 -
Druid.IO简介系列之二:Druid系统架构
Druid采用多进程,分布式的架构;其架构易于运维及部署,便于部署在云环境中。每个Druid进程都可以被独立地配置和横向扩展,这种设计一方面赋予了Druid集群最大的灵活性和可扩展性,另一方面以提供了更高的容错性:避免了个别组件的失效影响了系统的其他模块。Druid进程类型包括:Historical进程:Historical进程用于处理历史数据的存储和查询(历史数据包括所以已经被commi...翻译 2019-03-06 09:39:53 · 530 阅读 · 0 评论 -
Druid.IO系列简介之五:外部依赖组件
Deep stroageDruid只是将Deep storage作为数据备份存储以及后台Druid进程间数据传输的途径。在处理请求时,Historical 进程并不直接访问Deep storage,而是只访问已经预先从deep storage加载到本地磁盘的segment。也就是说,为了提高查询的性能,Druid从来都不会在处理查询请求期间从Deep storage访问数据,这也意味着你的Hi...翻译 2019-03-09 07:18:42 · 413 阅读 · 0 评论 -
Druid.IO简介系列之三:Datasource和segments
Druid的数据被保存在datasource里面, DataSource类似于关系型数据库中的table。所有的DataSource是按照时间来分片的,必要时也可以额外加上其他字段来分片。每个时间区间范围被称为一个chunk(比如当你的DataSource是按天来分片的,一天就是一个chunk)。在chunk内部,数据被进一步分片成一个或多个segment。所有的segment是一个单独的文件,通...翻译 2019-03-07 09:39:54 · 808 阅读 · 0 评论 -
Druid.IO原理之索引文件Segment详解
Druid按时间分区以后,将索引信息存储在segment文件里面。在基础的配置安装里,每个segment对应一个时间区间(时间区间定义参考granularitySpec中的segmentGranularity参数:url链接)。为了在高负载的情况下提供良好的响应性能,强烈推荐segment的大小限制在推荐值区间(300mb-700mb),如果你的segment文件大小超过这个区间,可以考虑改变时...翻译 2019-03-15 09:36:59 · 1745 阅读 · 0 评论 -
Druid.IO系列简介之四:查询处理流程
Broker负责接收查询请求,请求处理过程如下:Broker首先会检查哪些segment拥有可以用于处理该查询的数据,这时候会通过查询时间以及datasource的其他partition信息来裁剪掉没有用的segment; Broker会检查哪些Historical和MiddleManager进程拥有这些segment,并将子查询请求发送个这些相应的进程; Historical/Middl...翻译 2019-03-08 04:45:21 · 605 阅读 · 0 评论 -
Druid.IO系列介绍汇总
Druid是一个开源的分布式OLAP系统,Druid通过了以下技术,实现了在数十亿甚至百亿数量级的数据库中提供亚秒级的查询支持的能力:分布式架构 根据时间将数据分组 数据导入时进行适当的数据聚合 列式存储 倒排索引 RoaringBitmap/CONCISE等位图压缩技术。本文汇总了所翻译的Druid.IO介绍。Druid.IO简介系列英文原文:http://druid.i...原创 2019-03-08 04:53:40 · 769 阅读 · 0 评论