---- Flink
文章平均质量分 91
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。
云 祁
Focus BigData,专注于大数据技术领域的知识分享。
展开
-
为什么我们选择基于 Flink 搭建实时个性化营销平台?
一、前言在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常健康,然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核,骗到贷款后就“销声匿迹”了。那么,如何更快速地预防或甄别可能的欺诈行为?如何从超大规模、高并发、多维度的数据中实现在线实时反欺诈?这些都是金融科技公司当下面临的主要难题。针对这些问题,InfoQ 专访玖富集团,揭秘基于 Flin转载 2021-05-06 21:44:44 · 431 阅读 · 0 评论 -
干货 | Apache Flink 入门技术分享 PPT(多图预警)
大家好,我是云祁!之前为团队里的小伙伴做了 Flink 与阿里云 Realtime Compute 的技术分享,今天有时间就把PPT的内容做了整理分享给大家!原创 2020-11-16 19:30:23 · 2073 阅读 · 29 评论 -
分享 | 双十一 Kafka+Flink+Redis 的电商大屏实时计算案例
前言一年一度的双11又要到了,阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real-time dashboard)正在被越来越多的企业采用,用来及时呈现关键的数据指标。并且在实际操作中,肯定也不会仅仅计算一两个维度。由于Flink的“真·流式计算”这一特点,它比Spark Streaming要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型,并简要叙述计算流程(当然大部分都是源码)。数据格式与接入简化的子订单消息体如下:{ "userId": 234567, "转载 2020-11-10 20:58:28 · 677 阅读 · 0 评论 -
高可用Flink on YARN集群快速配置
我们长久以来一直使用Spark作为离线和近实时计算框架,几乎承担了主要业务中所有的计算任务。最近Flink逐渐兴起,我们通过查阅资料和参加Meetup,了解到Flink在实时计算方面确实比Spark有优势。我们正准备涉足实时业务,实时数仓、实时推荐这些东西总是要有的,快速上手Flink势在必行。Flink的官方文档比较详尽,并且设计理念与Spark多有相通,理解成本较低。Flink有多种集群部署方式(Local/Standalone/YARN/K8s/Mesos等等),考虑到已经有现成的YARN和Zoo转载 2020-11-09 23:52:37 · 785 阅读 · 0 评论 -
【Flink】(十五)Flink SQL / Table 介绍与实战
参加Flink中文社区极客训练营,本文是对云邪大佬 Flink SQL / Table 介绍与实战课程的总结。原创 2020-07-21 18:23:18 · 555 阅读 · 0 评论 -
【Flink】(十四)Flink Runtime 核心机制剖析
本文是在Flink中文社区-进阶教程关于Runtime核心机制的学习总结,首先介绍了 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍在这个过程,Flink 是怎么进行资源管理、作业调度以及错误恢复的。原创 2020-07-12 22:27:02 · 420 阅读 · 0 评论 -
【Flink】(十三)Flink CEP Library 使用案例分析
根据Flink CEP library来监控数据中心中每个机柜的温度。当在一定的时间内,如果有2个连续的Event中的温度超过设置的阈值时,就产生一条警告;一条警告也许还不是很坏的结果,但是如果我们在同一个机柜上连续看到2条这种警告,这种情况比较严重了。所以根据第一个警告流的输出,通过定义另一个Pattern,以上一步的输出作为第二个pattern的输入,来定义一个“严重”的问题。原创 2020-07-12 14:48:33 · 475 阅读 · 0 评论 -
【Flink】(十二)Flink Table API 和 Flink SQL 编程(更新中....)
Table API 和Flink SQL课程学习笔记,通过对Flink Table API和Flink SQL理论基础、调用方式和自定义函数的详细讲解,将Flink技能点的最后一块拼图补上,笔记随课程学习的进度持续进行更新~.原创 2020-07-07 00:33:47 · 446 阅读 · 0 评论 -
【Flink】(十一)Flink CEP 入门
文章目录一、前言二、Flink CEP一、前言什么是复杂事件处理 CEP?简而言之,就是由一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。特征:目标:从有序的简单事件流中发现一些高阶特征输入:一个或多个由简单事件构成的事件流处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件输出:满足规则的复杂事件CEP 用于分析低延迟、频繁产生的不同来源的事件流。CEP 可以帮助在复杂的、不相关的事件流中找出有意义的模式和复杂的原创 2020-06-03 22:02:55 · 564 阅读 · 0 评论 -
【Flink】(十)Flink Table API 和 Flink SQL 入门
Table API 是流处理和批处理通用的关系型 API,Table API 可以基于流输入或者批输入来运行而不需要进行任何修改。Table API 是 SQL 语言的超集并专门为 Apache Flink 设计的,Table API 是 Scala 和 Java 语言集成式的 API。与常规 SQL 语言中将查询指定为字符串不同,Table API 查询是以 Java 或 Scala 中的语言嵌入样式来定义的,具有 IDE 支持如:自动完成和语法检测。原创 2020-06-01 23:07:12 · 593 阅读 · 0 评论 -
【Flink】(九)状态一致性、端到端的精确一次(ecactly-once)保证
当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还是重复计数?原创 2020-05-31 20:15:22 · 1718 阅读 · 0 评论 -
【Flink】(八)容错机制
Flink 具体如何保证 exactly-once 呢? 它使用一种被称为"检查点"(checkpoint)的特性,在出现故障时将系统重置回正确状态。原创 2020-05-31 13:18:35 · 884 阅读 · 4 评论 -
【Flink】(七)状态管理
文章目录一、前言二、有状态的算子和应用程序一、前言流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过 90 度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。所有类型的窗口。例如,计算过去一小时的平均温度,就是有状态的计算。所有用于复杂事件处理的状态机。例如,若在一分钟内收到两个相差 20 度以上的温度读数,则发出警告,这是有状态的计算。流与流之间的所有关联操作,以及流与静态表或动原创 2020-05-30 20:35:49 · 1276 阅读 · 12 评论 -
【Flink】(六)ProcessFunction API(底层 API)
文章目录一、前言二、KeyedProcessFunction三、TimerService 和 定时器(Timers)四、侧输出流(SideOutput)五、CoProcessFunction一、前言我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如 MapFunction 这样的 map 转换算子就无法访问时间戳或者当前事件的事件时间。基于此,DataStream API 提供了一系列的 Low-Level 转换算子。可以访问时间戳、watermark原创 2020-05-21 22:24:16 · 486 阅读 · 0 评论 -
【Flink】(五)时间语义和水位线 (Watermark)
文章目录一、Flink 中的时间语义二、EventTime 的引入三、 Watermark(水位线)3.1 基本概念一、Flink 中的时间语义在 Flink 的流式处理中,会涉及到时间的不同概念,如下图所示:Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。Ingestion Time:是数据进入 Flink 的时间。Processing Time:是每一个执行基于时间操作的原创 2020-05-15 00:02:14 · 1793 阅读 · 14 评论 -
【Flink】(四)详解 Flink 中的窗口(Window)
文章目录一、Window1.1 Window 概述1.2 Window 类型0. TimeWindow 三类1. 滚动窗口(Tumbling Windows)2. 滑动窗口(Sliding Windows)3. 会话窗口(Session Windows)二、Window API2.1 TimeWindow1. 滚动窗口2. 滑动窗口(SlidingEventTimeWindows)2.2 CountWindow1. 滚动窗口2. 滑动窗口2.3 窗口函数 (window function)2.4 其它可选原创 2020-05-10 11:16:32 · 1567 阅读 · 20 评论 -
【Flink】(三)详解 Flink DataStream API(Environment、Source、Transform、Sink)
文章目录一、Environment1.1 getExecutionEnvironment1.2 createLocalEnvironment1.3 createRemoteEnvironment二、Source2.1 从集合读取数据2.2 从文件读取数据2.3 以 kafka 消息队列的数据作为来源2.4 自定义 Source三、转换算子(Transform)3.1 map3.2 flatMap3...原创 2020-05-08 17:09:36 · 1594 阅读 · 16 评论 -
【Flink】(二)详解 Flink 运行架构
Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为 Flink 是用 Java 和 Scala 实现的,所以所有组件都会运行在Java 虚拟机上。原创 2020-04-20 20:48:33 · 830 阅读 · 4 评论 -
【Flink】(一)初识 Flink
Flink 项目的理念是:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。原创 2020-04-16 23:40:25 · 577 阅读 · 4 评论 -
【实时数仓篇】(04)利用 Flink 实现实时状态复用场景
整理自:【实时数仓篇】利用 Flink 实现实时状态复用场景讲师:李晨(菜鸟 数据工程师)原创 2020-07-29 16:09:45 · 687 阅读 · 0 评论 -
【实时数仓篇】(03)菜鸟物流利用 Flink 实现实时超时统计场景
文章目录一、前言二、实时数仓基本架构三、难题:实时超时统计四、解决方案一、前言在小破站看了晨磊大佬关于Flink的分享视频 https://www.bilibili.com/video/BV1TE411L7zV/?spm_id_from=333.788.videocard.4,这篇博客主要对这次分享的一些知识点做些整理。看大佬,人美技术牛! ( •̀ ω •́ )✧二、实时数仓基本架构以下是菜鸟作为物流扛把子,它对于数据的需求,主要有以下四点:实时的数据,它存在的计算难点如下。我们知道,实时原创 2020-05-30 13:45:41 · 3253 阅读 · 2 评论 -
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现
本文是学习Flink中文社区实时数仓篇的总结,讲师:讲师:买蓉(美团点评 高级技术专家)。原创 2020-07-14 14:48:15 · 895 阅读 · 1 评论 -
【实时数仓篇】(01)美团 Flink 实时数仓应用
本文是学习Flink社区在B站的实时数仓篇第一节课程的总结,[1. Flink 实时数仓的应用] ,讲师:黄伟伦(美团点评 数据系统研发工程师)。原创 2020-07-14 11:12:19 · 1084 阅读 · 1 评论 -
【Flink】(05)Apache Flink 漫谈系列 —— SocketWindowWordCount 程序执行过程源码分析
本文主要是根据一段简单的 `SocketWindowWordCount` 代码,进而对 Flink 的执行过程进行剖析。转载 2020-07-12 13:36:06 · 606 阅读 · 0 评论 -
【Flink】(04)Apache Flink 漫谈系列 —— 实时计算 Flink 与 Alibaba Cloud Realtime Compute 剖析
Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。而阿里云实时计算(Alibaba Cloud Realtime Compute)则是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理等场景。原创 2020-07-09 22:06:30 · 1489 阅读 · 1 评论 -
【Flink】(03)Apache Flink 漫谈系列 —— Flink 1.11 Unaligned Checkpoint 解析
作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标,成功且耗时较短的 Checkpoint 表明作业运行状况良好,没有异常或反压。然而,由于 Checkpo.转载 2020-07-09 15:12:15 · 464 阅读 · 0 评论 -
【Flink】(02)Apache Flink 漫谈系列 —— 流批一体的实践与探索
自 Google Dataflow 模型被提出以来,流批一体就成为分布式计算引擎最为主流的发展趋势。流批一体意味着计算引擎同时具备流计算的低延迟和批计算的高吞吐高稳定性,提供统一编程接口开发两种场景的应用并保证它们的底层执行逻辑是一致的。对用户来说流批一体很大程度上减少了开发维护的成本,但同时这对计算引擎来说是一个很大的挑战。作为 Dataflow 模型的最早采用者之一,Apache Flink 在流批一体特性的完成度上在开源项目中是十分领先的。本文将基于社区资料和笔者的经验,介绍 Flink 目前(1.1转载 2020-07-06 10:26:15 · 598 阅读 · 0 评论 -
【Flink】(01)Apache Flink 漫谈系列 —— 概述
我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。转载 2020-07-05 14:51:30 · 732 阅读 · 0 评论 -
Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!
目前我们所接触的比较流行的开源流式处理框架:Flink、Spark Streaming、Storm、Kafka Streams,我会对以上几个框架的应用场景、优势、劣势、局限性一一做说明,大家快来看看哪个流式处理的框架更适合你吧!原创 2020-05-11 00:03:29 · 2084 阅读 · 2 评论