Flink实时计算平台
文章平均质量分 69
flink 流计算案例
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
-
事实表和纬度表概述
参考链接: https://www.cnblogs.com/wufengtinghai/archive/2013/05/04/3060265.html 事实表 在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的...转载 2020-02-05 15:56:41 · 881 阅读 · 2 评论 -
Flink Window分析及Watermark解决乱序数据机制深入剖析-Flink牛刀小试
转发https://blog.csdn.net/shenshouniu/article/details/84455619: 1 The Time 针对stream数据中的时间,可以分为以下三种: Event Time:事件产生的时间,它通常由事件中的时间戳描述。 Ingestion time:事件进入Flink的时间 Processing Time:事件被处理时当前系统的时间 Flink中...转载 2020-02-02 15:54:51 · 692 阅读 · 0 评论 -
整理spark中的job stage task几个概念以及运行案例
Job : 是一个比task 和 stage 更大的逻辑概念,job 可以认为是我们在driver 或是通过spark-submit 提交的程序中一个action ,在我们的程序中有很多action 所有也就对应很多的jobs Stage: 是spark 中一个非常重要的概念 ,在一个job 中划分stage 的一个重要依据是否有shuflle 发生 ,也就是是否原创 2017-11-10 17:14:01 · 4679 阅读 · 0 评论 -
Window Operator如何调用用户自定义的窗口函数Window Function的代码分析
Window也即窗口,是Flink流处理的特性之一。前一篇文章我们谈到了Winodw的相关概念及其实现。窗口的目的是将无界的流转换为有界的元素集合,但这还不是最终的目的,最终的目的是在这有限的集合上apply(应用)某种函数,这就是我们本篇要谈的主题——WindowFunction(窗口函数)。 那么窗口函数会在什么时候被应用呢?还记得上篇文章我们谈到了触发器Trigger,在触发器触发后会原创 2017-04-26 17:54:09 · 1331 阅读 · 0 评论 -
Flink自定义窗口
先看官方的Flink自定义窗口流程: 基本操作如下: window:创建自定义窗口trigger:自定义触发器evictor:自定义evictorapply:自定义window function 从定义窗口的基本操作可以看出,先调用window函数,定义一个WindowAssigner对象, 在WindowAssigner中 通过 assignWindows 设定窗口类原创 2017-04-26 16:46:36 · 5694 阅读 · 0 评论 -
Flink的窗口算子 WindowOperator的实现原理
窗口算子WindowOperator是窗口机制的底层实现,它几乎会牵扯到所有窗口相关的知识点,因此相对复杂。本文将以由面及点的方式来分析WindowOperator的实现。首先,我们来看一下对于最常见的时间窗口(包含处理时间和事件时间)其执行示意图: 上图中,左侧从左往右为事件流的方向。方框代表事件,事件流中夹杂着的竖直虚线代表水印,Flink通过水印分配器(TimestampsAn转载 2017-04-25 23:38:35 · 2415 阅读 · 0 评论 -
Flink中在source流中自定义timestamp和watermark
To work with Event Time, streaming programs need to set the time characteristic accordingly. 首先配置成,Event Time final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnviro转载 2017-04-24 16:05:33 · 5165 阅读 · 0 评论 -
Flink 两种发送自定义的timestamp以及watermark的方式
Flink提供了抽象类来让开发者赋值自己的时间戳并发送他们自己的Watermark。更具体来说,开发者需要依照不同用例情况来实现接口AssignerWithPeriodicWatermarks或接口AssignerWithPunctuatedWatermarks。简而言之,前一个接口将会周期性发送Watermark,而第二个接口根据一些到达数据的属性,例如一旦在流中碰到一个特殊的element便发原创 2017-04-24 16:03:37 · 6166 阅读 · 0 评论 -
Kafka的web 监控平台
1. 下载KafkaOffsetMonitor-assembly-0.2.0.jar 2. 创建/data/server/flink-web-monitor目录,将jar包放在该目录下,同时创建kafkacom.sh脚本: -Xms128M -Xmx256M -Xss1024K -XX:PermSize=128m -XX:MaxPermSize=256m -cp ./KafkaOffsetM原创 2017-04-13 22:44:22 · 5316 阅读 · 0 评论 -
Flink的standalone 模式简单部署
flink-conf.yaml 文件中进行一下配置: jobmanager.rpc.address: 10.8.45.10 # The RPC port where the JobManager is reachable. jobmanager.rpc.port: 6123 # The heap size for the JobManager JVM原创 2017-03-21 12:52:41 · 1552 阅读 · 0 评论 -
storm中的ack机制
我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理, 完整处理的意思是指: 一个tuple被完全处理的意思是: 这个tuple以及由这个tuple所导致的所有的tuple都被成功处理。而一个tuple会被认为处理失败了如果这个消息在timeout所指定的时间内没有成功处理。 也就是说对于任何一个spout-tuple以及它的所有子孙到底处理成功失败与否转载 2015-12-17 10:02:39 · 3967 阅读 · 0 评论 -
storm中的可靠性机制
我们知道Storm有一个很重要的特性,那就是Storm API能够保证它的一个Tuple能够被完全处理,这一点尤为重要,其实storm中的可靠性是由spout和bolt组件共同完成的,下面就从spout和bolt两个方便给大家介绍一下storm中的可靠性,最后会给出一个实现了可靠性的例子。 1.Spout的可靠性保证 在Storm中,消息处理可靠性从Spout开始的。stor原创 2015-12-17 10:01:31 · 2161 阅读 · 1 评论 -
storm中消息安全机制,如何保证消息在传输中不丢失
storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的,以及我们使用者怎么做才能充分利用storm的可靠性特点。 一个tuple被”完全处理”是什么意思? 就如同蝴蝶效应一样,从spout发射的一个tuple可以引起其它成千上万个tuple因它而产生, 想想那个计算一篇文章中每个单词出现次数的topology. 帮助原创 2015-12-17 09:57:35 · 2334 阅读 · 0 评论