[21]Druid
hjw199089
从事大数据
(1)查询引擎开发-presto深度开发-hive开发-自研查询引擎开发
(2)大数据用户行为分析
(3)spark、sparkstreaming、storm、druid开发应用经验
(4)数据仓库开发
展开
-
1-Druid 概览
MataMarkets在2012年开源Druid,定位为分布式,支持实时分析的数据存储系统类似于传统的OLPA,但做了一些取舍和强化,像时序数据库,按照时间粒度聚合,加快分析设计原则[1]快速查询(部分聚合、内存+索引)[2]水平扩展[3]实时分析翻译 2017-09-10 16:23:22 · 342 阅读 · 0 评论 -
2-Druid架构-Druid white paper
Real-time NodesEvents 索引化便于查询,只关注小时间范围的事件,然后收集到的将不可变的批次事件,传递给集群中特定处理该类事件的其他节点。期间依赖Zookeeper协调集群索引化过程,内存中的buffer构建索引,定期将这些索引存到外部real-time节点定期调度一个后台任务组织合并索引,将所涉及的不可变数据构建一个数据块即一个segment,并在h翻译 2017-11-18 19:57:45 · 335 阅读 · 0 评论 -
4-Druid数据摄入-1
http://druid.io/docs/0.10.1/ingestion/index.html一、数据格式【1】Data Formatshttp://druid.io/docs/0.10.1/ingestion/data-formats.html(1)摄入规范化数据:JSON、CSV、TSV (2)自定义格式Regex parser or the JavaScript翻译 2017-11-19 12:06:50 · 3400 阅读 · 0 评论 -
6-Druid Design设计模式
原文http://druid.io/docs/0.10.1/design/design.html一、Architecture不同的节点:Historical nodes 作为主力,处理storage和"historical" data (non-realtime)的查询,从deep storage加载数据,响应来自broker的查询,返回结果给broker。通过翻译 2017-11-19 15:34:21 · 587 阅读 · 0 评论 -
7-Druid-Querying
原文http://druid.io/docs/0.10.1/querying/querying.html其他:Transforming Dimension ValuesThe following JSON fields can be used in a query to operate on dimension values.http://druid.io/翻译 2017-11-19 21:54:37 · 2297 阅读 · 0 评论 -
5-Druid数据摄入-2
Batch File IngestionStream IngestionStream PushStream PullUpdating Existing DataIngestion TasksFAQ翻译 2017-11-19 13:38:31 · 3553 阅读 · 0 评论 -
3-Druid单机测试与数据加载方法
Quickstart单机测试http://druid.io/docs/0.10.1/tutorials/quickstart.htmlLoading Datahttp://druid.io/docs/0.10.1/tutorials/ingestion.html两种形式streaming (real-time) file-based (batch) 【1】HDFS文件ht翻译 2017-11-18 23:08:41 · 2551 阅读 · 0 评论