实时
Resemble_
一只程序猿的奇思妙想
github: https://github.com/Resemble
展开
-
如果你也想做实时数仓…
目录1. 数据仓库简介2. 数据仓库的发展3. 数据仓库建设方法论4. 数据仓库架构的演变5. 实时数仓案例6. 实时数仓与离线数仓的对比数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的...转载 2019-11-17 15:04:00 · 293 阅读 · 0 评论 -
时序数据库技术体系 – Druid 多维查询之Bitmap索引
转载自http://hbasefly.com/2018/06/19/timeseries-database-8/时序数据库从抽象语义上来说总体可以概括为两个方面的基本需求,一个方面是存储层面的基本需求:包括LSM写入模型保证写入性能、数据分级存储(最近2小时的数据存储在内存中,最近一天的数据存储在SSD中,一天以后的数据存储在HDD中)保证查询性能以及存储成本、数据按时间分区保证时间线查询...转载 2018-11-06 14:39:55 · 570 阅读 · 0 评论 -
ElasticSearch: Index 和 Type 的区别
对于 ES 的新用户来说,有一个常见的问题:要存储一批新的数据时,应该在已有 index 里新建一个 type,还是给它新建一个 index?要想回答这个问题,我们必须先理解这两者是怎么实现的。过去,我们为了让 ES 更容易理解,经常用关系型数据库做一个比喻: index 就像关系型数据库里的 database, type 就像 database 里的 table。但是这并不正确。由于两种数据...转载 2018-03-28 12:16:04 · 22281 阅读 · 0 评论 -
storm之tuple详解
Storm中的数据结构类型为Tuple官方解释:“A tuple is a named of values where each value can be any type.”tuple是一个类似于列表的东西,存储的每个元素叫做field(字段),可以是任何类型。Storm使用tuple作为它的数据模型, 每个tuple是一堆值,每个值都有一个名字,一个Tuple代表数据流中的...转载 2019-01-25 20:11:31 · 2289 阅读 · 1 评论 -
Flink DataStream API 编程指南
原文链接:https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/datastream_api.htmlFlink中的DataStream程序是在数据流中实现transformation操作(如:过滤、修改状态、定义窗口、聚合等)的常规程序。数据流通过各种source(如: 消息队列、socket流、文件等)来创建,结...转载 2019-01-21 16:46:12 · 1016 阅读 · 0 评论 -
Flink基于EventTime和WaterMark处理乱序事件和晚到的数据
在实际的业务中,我们经常会遇到数据迟到的情况,这个时候基于窗口进行计算的结果就不对了,Flink中watermark就是为了解决这个问题的,理解watermark之前,先来说一下flink中的三个与流数据相关的概念,ProcessTime、EventTime、IngestionTime,不然很难理解watermark是怎么回事.我们先来看一下官网给出的一张图,非常形象地展示了Process Ti...转载 2019-07-09 12:59:58 · 2244 阅读 · 0 评论 -
Flink乱序处理之allowedLateness使用
1、简介Flink中借助watermark以及window和trigger来处理基于event time的乱序问题,那么如何处理“late element”呢?也许有人会问,out-of-order element与late element有什么区别?不都是一回事么?答案是一回事,都是为了处理乱序问题而产生的概念。要说区别,可以总结如下:1、通过watermark机制来处理out-of-...转载 2019-07-09 13:10:29 · 1202 阅读 · 0 评论 -
Flink 原理与实现:数据流上的类型和操作
Flink 为流处理和批处理分别提供了 DataStream API 和 DataSet API。正是这种高层的抽象和 flunent API 极大地便利了用户编写大数据应用。不过很多初学者在看到官方 Streaming 文档中那一大坨的转换时,常常会蒙了圈,文档中那些只言片语也很难讲清它们之间的关系。所以本文将介绍几种关键的数据流类型,它们之间是如何通过转换关联起来的。下图展示了 Flink 中...转载 2019-09-18 20:12:25 · 237 阅读 · 0 评论