flink
Fenggms
好好学习,天天向上。
展开
-
Flink SQL
Query使用TableEnvironment的sqlQuery()方法指定SQL查询。该方法以表的形式返回SQL查询的结果。表可以用于后续的SQL和表API查询,可以转换为DataSet或DataStream,也可以写入TableSink)。可以无缝地混合SQL和Table API查询,并对其进行整体优化,并将其转换为单个程序。为了访问SQL查询中的表,必须在TableEnvironment...原创 2019-11-02 10:34:48 · 1104 阅读 · 0 评论 -
Flink SQL客户端
Flink SQL CLI启动SQL客户端旨在提供一种简单的方式,无需一行Java或Scala代码,即可将表程序编写、调试和提交到Flink集群。SQL客户机CLI允许检索和可视化命令行上运行的分布式应用程序的实时结果。SQL客户机绑定在常规Flink发行版中,因此可以开箱即用。它只需要一个正在运行的Flink集群,其中可以执行表程序。环境准备可以自己安装flink环境,也可以通过dock...原创 2019-11-02 10:07:40 · 6261 阅读 · 3 评论 -
Flink 状态管理与容错机制
参考 Apache Flink 零基础入门系列文章。状态管理的基本概念什么是状态在批处理过程中,数据是划分为块分片去完成的,然后每一个Task去处理一个分片。当分片执行完成后,把输出聚合起来就是最终的结果。在这个过程当中,对于state的需求还是比较小的。在流计算过程中,对State有非常高的要求,因为在流系统中输入是一个无限制的流,会持续运行从不间断。在这个过程当中,就需要将状态数据很好...原创 2019-11-01 12:12:29 · 579 阅读 · 0 评论 -
Flink Table API示例
Source&Sink我们选取Bounded EventTime Tumble Window为例,编写一个完整的包括Source和Sink定义的Apache Flink Table API Job。假设有一张淘宝页面访问表(PageAccess_tab),有地域,用户ID和访问时间。我们需要按不同地域统计每2分钟的淘宝首页的访问量(PV)。具体数据如下:region userId ...原创 2019-10-31 16:27:23 · 1166 阅读 · 1 评论 -
Flink Table API
Flink API架构:Table API &SQL特点Table API和SQL都是Apache Flink中最高层的分析API,SQL所具备的特点Table API也都具有,如下:声明式 - 用户只关心做什么,不用关心怎么做;高性能 - 支持查询优化,可以获取最好的执行性能;流批统一 - 相同的统计逻辑,既可以流模式运行,也可以批模式运行;标准稳定 - 语义遵循SQL...原创 2019-10-31 15:19:25 · 1242 阅读 · 0 评论 -
Flink DataStream API——Transform
mapval streamMap = stream.map { x => x * 2 }flatMapval streamFlatMap = stream.flatMap{x => x.split(" ")}Filterval streamFilter = stream.filter{x => x == 1}KeyByDataStream → KeyedSt...原创 2019-10-30 15:03:16 · 434 阅读 · 0 评论 -
Flink DataStream API
分层Api分层架构分布式流处理的基本模型Flink DataStream程序结构//1.设置运行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//配置数据源,读取数据DataStream<String> text = env.read...原创 2019-10-30 14:48:40 · 360 阅读 · 0 评论 -
Flink Window & Time ——EventTime和watermark(二)
EventTime在Flink的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime无法使用时,才会被迫使用ProcessingTime或者IngestionTime。如果要使用EventTime,那么需要引入EventTime的时间属性,引入方式如下所示:在 Flink 中我们可以通过下面的方式进行 Time 类型的设置 :env.setStreamTimeCh...原创 2019-10-30 11:02:04 · 419 阅读 · 0 评论 -
Flink Window & Time——(一)
Window & Time简介WindowFlink是一个天然支持无限流数据处理的分布式计算框架, 在 Flink 中 Window 可以将无限流切分成有限流,是处理有限流的核心组件,现在 Flink 中 Window 可以是时间驱动的(Time Window),也可以是数据驱动的(Count Window)。无限数据集是指一种不断增长的本质上无限的数据集,而window是一种切割...原创 2019-10-30 09:05:26 · 898 阅读 · 0 评论 -
Flink并行度
Flink Worker与Slotsworker每一个worker(TaskManager)是一个JVM进程,它可能会在独立的线程上执行一个或多个subtask。slots为了控制一个worker能接收多少个task,worker通过task slot来进行控制(一个worker至少有一个task slot)。·每个task slot表示TaskManager拥有资源的一个固定大小的子集...原创 2019-10-28 16:17:42 · 1516 阅读 · 0 评论 -
Flink运行架构
Flink运行架构1 任务提交流程(yarn模式)2 任务调度原理各角色作用:ClientJobManagerTaskManager1 任务提交流程(yarn模式)Flink任务提交后,Client向HDFS上传Flink的Jar包和配置,之后向Yarn ResourceManager提交任务,ResourceManager分配Container资源并通知对应的NodeManager启...原创 2019-10-28 14:13:49 · 249 阅读 · 0 评论 -
Flink客户端操作
参考学习阿里巴巴周凯波Flink客户端操作内容。概要Flink 提供了丰富的客户端操作来提交任务和与任务进行交互,包括 Flink 命令行,Scala Shell,SQL Client,Restful API 和 Web。Flink 首先提供的最重要的是命令行,其次是 SQL Client 用于提交 SQL 任务的运行,还有就是 Scala Shell 提交 Table API 的任务。同时,...原创 2019-10-28 09:05:14 · 1727 阅读 · 0 评论 -
Flink安装及运行worldcount
参考地址https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.html启动截图./bin/start-cluster.sh访问,默认端口为8081运行官网worldcount示例xshell中新打开一个窗口,启动端口nc -l 9000提交Flink 程序:./...原创 2019-10-23 17:24:39 · 452 阅读 · 0 评论 -
Flink简介
1.Flink是什么?支持高吞吐、低延迟、高性能的分布式处理框架Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。2014年12月,Flink一跃成为Apache软件基金会的顶级项目。2.Flink的特点事件驱动型(Event-driven)事件驱动型应用是一类具...原创 2019-10-23 15:56:10 · 482 阅读 · 0 评论