[21]Druid
hjw199089
从事大数据
(1)查询引擎开发-presto深度开发-hive开发-自研查询引擎开发
(2)大数据用户行为分析
(3)spark、sparkstreaming、storm、druid开发应用经验
(4)数据仓库开发
展开
-
1-Druid 概览
MataMarkets在2012年开源Druid,定位为分布式,支持实时分析的数据存储系统 类似于传统的OLPA,但做了一些取舍和强化,像时序数据库,按照时间粒度聚合,加快分析 设计原则 [1]快速查询(部分聚合、内存+索引) [2]水平扩展 [3]实时分析翻译 2017-09-10 16:23:22 · 351 阅读 · 0 评论 -
2-Druid架构-Druid white paper
Real-time Nodes Events 索引化便于查询,只关注小时间范围的事件,然后收集到的将不可变的批次事件,传递给集群中特定处理该类事件的其他节点。期间依赖Zookeeper协调集群 索引化过程,内存中的buffer构建索引,定期将这些索引存到外部 real-time节点定期调度一个后台任务组织合并索引,将所涉及的不可变数据构建一个数据块即一个segment,并在h翻译 2017-11-18 19:57:45 · 346 阅读 · 0 评论 -
4-Druid数据摄入-1
http://druid.io/docs/0.10.1/ingestion/index.html 一、数据格式 【1】Data Formats http://druid.io/docs/0.10.1/ingestion/data-formats.html (1)摄入规范化数据:JSON、CSV、TSV (2)自定义格式 Regex parser or the JavaScript翻译 2017-11-19 12:06:50 · 3408 阅读 · 0 评论 -
6-Druid Design设计模式
原文 http://druid.io/docs/0.10.1/design/design.html 一、Architecture 不同的节点: Historical nodes 作为主力,处理storage和"historical" data (non-realtime)的查询,从deep storage加载数据,响应来自broker的查询,返回结果给broker。通过翻译 2017-11-19 15:34:21 · 597 阅读 · 0 评论 -
7-Druid-Querying
原文 http://druid.io/docs/0.10.1/querying/querying.html 其他: Transforming Dimension Values The following JSON fields can be used in a query to operate on dimension values. http://druid.io/翻译 2017-11-19 21:54:37 · 2303 阅读 · 0 评论 -
5-Druid数据摄入-2
Batch File IngestionStream Ingestion Stream PushStream Pull Updating Existing DataIngestion TasksFAQ翻译 2017-11-19 13:38:31 · 3566 阅读 · 0 评论 -
3-Druid单机测试与数据加载方法
Quickstart单机测试 http://druid.io/docs/0.10.1/tutorials/quickstart.html Loading Data http://druid.io/docs/0.10.1/tutorials/ingestion.html 两种形式streaming (real-time) file-based (batch) 【1】HDFS文件 ht翻译 2017-11-18 23:08:41 · 2584 阅读 · 0 评论