![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Flink
Flink
chengruru
这个作者很懒,什么都没留下…
展开
-
DataStream API编程指南之Connectors概述(十一)
DataStream API编程指南之Connectors概述(十一)1、预定义的Sources和Sinks2、Boundled连接器3、Apache Bahir中的连接器4、连接Flink的其他方式(1)通过异步I/O扩展数据(2)可查询状态1、预定义的Sources和SinksFlink内置了一些基本的数据源和接收器,并且总是可用的。预定义的数据源包括从文件、文件夹、scoket和读取数据,集合和迭代器中读取数据。预定义的数据Sinks支持写入文件、stdout和stderr,以及套接字。2、Bo翻译 2020-06-13 17:28:23 · 195 阅读 · 0 评论 -
DataStream API编程指南之Event Time(九)
DataStream API编程指南之Event Time类型(九)1、Processing time - 处理时间2、Ingestion Time - 摄取时间3、Processing Time - 处理时间4、设置时间特性5、Event Time and Watermarks6、并行流中的水位线7、末元素8、闲置资源在Flink的流式处理中,会涉及到时间的不同概念,如下图所示:在上图中,有一个Event产生器,从日志生成的角度来看, 若是我们通过手机打开了一个今日头条的消息,此时会产生一条与用户相翻译 2020-06-11 17:27:04 · 272 阅读 · 0 评论 -
DataStream API编程指南之Data Sinks(八)
sink使用数据流并将其转发到文件、sockets、外部系统或打印。Flink提供了多种内置的输出格式,这些格式被封装在对数据流的操作中:writeAsText() / TextOutputFormat -以字符串的形式逐行写入元素。字符串是通过调用每个元素的toString()方法获得的。writeAsCsv(...) / CsvOutputFormat - 以逗号分隔值文件的形式写入元组。行和字段间的分隔符是可以配置的。每个字段的值可以通过对象.toString()方法获取。print() /翻译 2020-06-10 23:54:04 · 230 阅读 · 0 评论 -
DataStream API编程指南之Data Sources(七)
DataStream API编程指南之Data Sources(七)1、基于文件方式2、基于Socket方式3、基于集合方式4、自定义方式(1)自定义非并行化源(2)自定义可并行化源-实现ParallelSourceFunction接口方式(3)自定义可并行化源-继承RichParallelSourceFunction类方式Sources 是程序读取输入的地方。通过使用StreamExecutionEnvironment.addSource(sourceFunction),可以添加一个数据源到你的程序中。翻译 2020-06-10 23:45:31 · 369 阅读 · 0 评论 -
DataSet API编程指南之计数器和分布式缓存(六)
DataSet API编程指南之计数器和分布式缓存(六)1、计数器2、分布式缓存1、计数器需求:统计DataSet中元素的数量。常规实现思路:object CounterApp { def main(args: Array[String]): Unit = { val env: ExecutionEnvironment = ExecutionEnvironment .getExecutionEnvironment val dat原创 2020-06-10 17:40:42 · 143 阅读 · 0 评论 -
DataSet API编程指南之Data Sink(五)
Source 就是数据的来源,中间的 Transformations其实就是具体的处理逻辑,进行一系列的转换,最后,将结果 Sink 到目的地,或者说存储到某个地方。writeAsText() / TextOutputFormat - 以字符串的形式逐行写入元素。字符串是通过调用每个元素的*toString()*方法获得的。writeAsCsv(...) / CsvOutputFormat - 以逗号分隔值文件的形式写入元组。行和字段间的分隔符是可以配置的。每个字段的值可以通过对象.toString.翻译 2020-06-10 15:51:14 · 335 阅读 · 0 评论 -
DataSet API编程指南之Transformations(四)
DataSet Transformations1、Map2、FlatMap3、MapPartition4、Filter 过滤5、Reduce6、ReduceGroup7、Aggregate8、Distinct9、Join10、OuterJoin11、CoGroup12、Cross13、Union14、Rebalance15、Hash-Partition16、Range-Partition17、Custom Partitioning18、Sort Partition19、First-nFlink 程序是实翻译 2020-06-10 15:27:53 · 164 阅读 · 0 评论 -
DataSet API编程指南之Data Sources(三)
Data Sources1、Data Source创建(1)基于文件的创建方式(2)基于集合的创建方式(常用于学习、测试)(3)使用介绍2、配置CSV解析参数3、递归读取输入路径下的文件4、读取压缩文件内容Data Sources也就是数据来源的意思。数据源可以从文件或者Java集合中创建初始数据集。创建数据集的一般机制被抽象为InputFormat。Flink提供几种内置格式,可以从常见的文件格式创建数据集。这些文件格式在ExecutionEnvironment中都有相应的快捷创建方式。1、Data翻译 2020-06-10 14:59:32 · 383 阅读 · 0 评论 -
Flink的特点(二)
Flink的特点1、事件驱动型(Event-Driven)2、流与批3、分层API4、支持有状态计算5、支持exactly-once语义6、支持事件事件(Event Time)1、事件驱动型(Event-Driven)事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以kafka为代表的消息队列几乎都是事件驱动型应用。与之不同的就是SparkStreaming微批次。(1)微批次型(2)事件驱动型2、流与批批处原创 2020-06-07 00:48:18 · 290 阅读 · 0 评论 -
Flink简介(一)
Flink简介一、Architecture 架构1、处理无界数据和有界数据2、部署应用到任意地方3、运行任意规模的程序4、利用内存性能二、Application 应用1、Building Blocks for Streaming Applications(1)Streams 流(2)State 状态(3)Time 时间2、分层API三、Operations1、Run Your Applications Non-Stop2、Update, Migrate, Suspend, and Resume Your A翻译 2020-06-07 00:10:00 · 400 阅读 · 0 评论