flink
文章平均质量分 65
大数据技术之路---花火
这个作者很懒,什么都没留下…
展开
-
Flink 1.11:更好用的流批一体 SQL 引擎
许多的数据科学家,分析师和 BI 用户依赖交互式 SQL 查询分析数据。Flink SQL 是 Flink 的核心模块之一。作为一个分布式的 SQL 查询引擎。Flink SQL 提供了各种异构数据源的联合查询。开发者可以很方便地在一个程序中通过 SQL 编写复杂的分析查询。通过 CBO 优化器、列式存储、和代码生成技术,Flink SQL 拥有非常高的查询效率。同时借助于 Flink runtime 良好的容错和扩展性,Flink SQL 可以轻松处理海量数据。在保证优秀性能的同时,易用性是 1.转载 2020-08-28 10:56:41 · 2076 阅读 · 0 评论 -
Flink1.9 和1.11 build源码详细教程
一、Requirementjavamavenflink源码包二、Flink1.9 build 源码1、Flink 1.9(without flink UI)1.1 下载flink1.9源码 wget https://archive.apache.org/dist/flink/flink-1.9.1/flink-1.9.1-src.tgz1.2 解压 tar zxvf flink-1.9.1-src.tgz1.3 mave...原创 2020-08-20 14:56:49 · 512 阅读 · 0 评论 -
美团点评基于 Flink 的实时数仓平台实践
摘要:数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。主要内容为以下三个方面: 实时计算演进与业务实践 基于 Flink 的实时数仓平台 未来发展与思考 一、美团点评...原创 2020-01-21 16:04:42 · 640 阅读 · 0 评论 -
Flink elasticsearch-sink by http and https
官网上有关于http的例子:DataStream<String> input = ...;List<HttpHost> httpHosts = new ArrayList<>();httpHosts.add(new HttpHost("127.0.0.1", 9200, "http"));httpHosts.add(new HttpHost("10...原创 2019-12-30 10:41:00 · 1564 阅读 · 0 评论 -
Flink windows窗口之Windows Assigner和Windows Function
Windows窗口计算就是通过按照固定时间将数据切分成不同的窗口,然后对窗口内的数据进行计算。Flink DataStream API 将窗口抽象成独立的operator,并且在Flink DataStream内已经建了大多数窗口算子。每个算子中包含了Windows Assigner、Window Trigger(窗口触发器)、Evictor(数据剔除器)、Lateness(时延设定)、O...原创 2019-11-18 11:17:24 · 473 阅读 · 0 评论 -
Flink 的 DataStream 转换操作和DataSinks 数据输出
DataStream 转换操作 转换就是从一个或多个Datastream生成新的Datastream的过程。所有Datastream的转换操作可以分为单Single-Datastream、Multi-Datastream、物理分区三类类型。1、Single-Datastream 操作 Single-Datastream主要有Map、FlatMap、Filter、Ke...原创 2019-11-15 17:32:30 · 952 阅读 · 0 评论 -
Flink metrics的几种方式总结
下面所有的配置都是在flink-conf.yaml 中配置flink 有以下几种metrics reporter :1、JMX (org.apache.flink.metrics.jmx.JMXReporter)参数: port : 连接JMX listens的端口,如果有多个taskmanger在同一台机器,端口可以设置成范围9250-9260配置: ...原创 2019-10-18 17:40:00 · 3895 阅读 · 1 评论 -
Flink job-cluster on k8s
https://github.com/apache/flink/tree/release-1.9/flink-container/dockerhttps://github.com/apache/flink/tree/release-1.9/flink-container/kubernetes1、build images(1) define the version of flin...原创 2019-10-18 17:07:35 · 650 阅读 · 0 评论 -
Flink | EventTime 和Watermark
通常情况下,由于网络原因或系统等外部因素,事件数据往往不能及时传输到Flink系统中,导致数据乱序到达或延迟到达,因此需要一种机制能够控制数据处理的过程和进度。水平线(watermarks)机制,它能够衡量数据处理进度,保证事件数据到达Flink系统,或者在乱序和延迟时,也能够像预期一样计算出正确并且连续的结果。Flink会将用读取进去系统的最新事件时间减去固定的时间间隔作为w...原创 2019-08-10 20:52:49 · 424 阅读 · 0 评论 -
Flink 的时间类型
对于流式数据处理,最大的特点就是数据具有时间的属性,Flink根据时间的产生位置分为三种类型,事件生成时间(Event Time)、事件接入时间(Ingestion Time)、事件处理时间(Processing Time)。用户可以根据具体业务灵活选择时间类型。1、事件时间(Event Time):事件时间是每个独立事件在产生它的设备上发生的时间...原创 2019-08-09 12:51:23 · 1962 阅读 · 0 评论 -
DataStream 编程模型(一) DataSources数据输入
DataSources 模块定义了DataStream API 中的数据输入操作,Flink 将数据源主要分为内置数据源和第三方数据源。其中内置数据源包含文件、Socket网络端口、集合类型数据,不需要引入第三方依赖。第三方数据源定义了数据的读写接口和丰富的第三方数据源连接器。例如Kafka 、Elasticsearch 等。同时用户也可以自定义实现Flink中数据接入函数So...原创 2019-08-06 21:17:34 · 637 阅读 · 0 评论 -
Flink 基本介绍及框架原理
Flink 官网文档:https://ci.apache.org/projects/flink/flink-docs-release-1.8/一、Flink是什么? Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执...原创 2019-08-05 16:19:47 · 569 阅读 · 0 评论