flink
李国华技术博客
李国华技术博客
展开
-
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用022-Flink中OutFormat设置(Scala版)002
二、MultipleTextOutputFormat设置二使用DataSet的key和时间戳作为文件名称,将DataSet输出到多个文件中。原创 2017-11-20 11:04:10 · 13235 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战008-DataStream与MySql自定义sink和source(Scala版)003
四、自定义sink1.自定义sinkpackage code.book.stream.customsinkandsource.jdbc.scalaimport java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.flink.configuration.Configurationimport org.apa原创 2017-11-21 09:13:38 · 8087 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战009-DataStream与MySql自定义sink和source(Java版)001
一、在MySQL中准备测试数据1.执行命令1.查询数据库SHOW DATABASES;2.创建数据库CREATE DATABASE flinktest;3.使用数据库USE flinktest;4.创建表格CREATE TABLE Student( stuid INT(11) PRIMARY KEY NOT NULL AUTO_INCREMENT, stuname VARC原创 2017-11-21 09:16:26 · 7258 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战010-DataStream与MySql自定义sink和source(Java版)002
三、自定义source1.自定义sourcepackage code.book.stream.customsinkandsource.jdbc.java;import org.apache.flink.configuration.Configuration;import org.apache.flink.streaming.api.functions.source.RichSourceFuncti原创 2017-11-21 09:17:29 · 7910 阅读 · 1 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战011-DataStream与MySql自定义sink和source(Java版)003
四、自定义sink1.自定义sinkpackage code.book.stream.customsinkandsource.jdbc.java;import org.apache.flink.configuration.Configuration;import org.apache.flink.streaming.api.functions.sink.RichSinkFunction;impo原创 2017-11-21 09:18:39 · 7709 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战012-Flink在流处理中常见的sink和source001
一、flink在流处理上的sourceflink在流处理上的source和在批处理上的source基本一致。大致有4大类1.基于本地集合的source(Collection-based-source)2.基于文件的source(File-based-source)3.基于网络套接字的source(Socket-based-source)4.自定义的source(Custom-source)1原创 2017-11-21 09:20:44 · 7567 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战013-Flink在流处理中常见的sink和source002
3.基于网络套接字的source(Socket-based-source)方法原型def socketTextStream(hostname: String, port: Int, delimiter: Char = '\n',maxRetry: Long = 0):DataStream[String]示例程序package code.book.stream.sinksource.scala//0原创 2017-11-21 09:21:46 · 7023 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink其他操作及内容001-Flink基于流的SessionWindow操作001
一、数据流和sessionc窗口1.数据流1.用户上京东购物,会进行一系列的操作,比如(点击、浏览、搜索、购买、付款等),用户的操作可以被记录为用户操作数据流。2.京东上的用户会同时有多个,每个用户的操作都是独立的,随机的,因此用户之间的行为没有必然联系,没有统一规律。2.会话窗口(Session Windows)2.1会话窗口概念1.用户的行为有时是一连串的,形成的数据流也是一连串的2.我们把原创 2017-11-21 10:10:15 · 834 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战005--DateSet实用API详解005
DateSet的API详解五groupBydef groupBy(firstField: String, otherFields: String*): GroupedDataSet[T]def groupBy(fields: Int*): GroupedDataSet[T]def groupBy[K](fun: (T) ⇒ K)(implicit arg0: TypeInformation[K]原创 2017-11-16 09:08:43 · 7124 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战007-DataStream与MySql自定义sink和source(Scala版)002
三、自定义source1.source主程序package code.book.stream.customsinkandsource.jdbc.scalaimport java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.flink.configuration.Configurationimport org原创 2017-11-21 09:11:37 · 8403 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战006-DataStream与MySql自定义sink和source(Scala版)001
一、在MySQL中准备测试数据1.执行命令1.查询数据库SHOW DATABASES;2.创建数据库CREATE DATABASE flinktest;3.使用数据库USE flinktest;4.创建表格CREATE TABLE Student( stuid INT(11) PRIMARY KEY NOT NULL AUTO_INCREMENT, stuname VARC原创 2017-11-21 09:10:09 · 1460 阅读 · 1 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战005-Flink基于流的window操作003
五、window总结1.flink支持两种划分窗口的方式(time和count) 如果根据时间划分窗口,那么它就是一个time-window 如果根据数据划分窗口,那么它就是一个count-window2.flink支持窗口的两个重要属性(size和interval) 如果size=interval,那么就会形成tumbling-window(无重叠数据) 如果si原创 2017-11-21 09:07:19 · 14758 阅读 · 1 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用023-Flink中OutFormat设置(Scala版)003
三、MultipleTextOutputFormat设置三使用DataSet的key做为文件名称,文件内容以键值对的形式存在,将DataSet输出到多个文件中。原创 2017-11-20 11:08:28 · 13266 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战001-Flink基于流的wordcount示例001
Flink基于流的wordcount示例001原创 2017-11-20 14:19:36 · 13828 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战002-Flink基于流的wordcount示例002
三、基于socket的wordcount原创 2017-11-20 14:23:21 · 13808 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战003-Flink基于流的window操作001
一、流处理的基本概念1.stream和window1.源源不断的数据流是无法进行统计工作的,因为数据流没有边界,就无法统计到底有多少数据经过了这个流。 也无法统计数据流中的最大值,最小值,平均值,累加值等信息。2.如果在数据流上,截取固定大小的一部分,这部分是可以进行统计的。 截取方式主要有两种, 1.根据时间进行截取(time-driven-window),比如每1分钟统计一次或每10分原创 2017-11-20 14:33:42 · 13640 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战001--DateSet实用API详解001
DateSet的API详解一printdef print(): UnitPrints the elements in a DataSet to the standard output stream System.将信息输出到标准输出设备。执行程序://1.创建一个 DataSet其元素为String类型val input: DataSet[String] = benv.fromElements("原创 2017-11-15 13:34:11 · 7596 阅读 · 1 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战002--DateSet实用API详解002
DateSet的API详解二mindef min(field: Int): AggregateDataSet[T]def min(field: String): AggregateDataSet[T]Syntactic sugar for aggregate with MIN获取最小的元素执行程序://1.创建DataSet[Student]case class Student(age: Int原创 2017-11-15 13:35:41 · 7219 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战003--DateSet实用API详解003
DateSet的API详解三getTypedef getType(): TypeInformation[T]Returns the TypeInformation for the elements of this DataSet.获取DataSet的元素的类型信息执行程序://1.创建一个 DataSet其元素为String类型val input: DataSet[String] = benv.f原创 2017-11-15 13:42:21 · 7149 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战004--DateSet实用API详解004
DateSet的API详解四mapPartitiondef mapPartition[R](fun: (Iterator[T]) ⇒ TraversableOnce[R])(implicit arg0: TypeInformation[R], arg1: ClassTag[R]): DataSet[R]def mapPartition[R](fun: (Iterator[T], Collector原创 2017-11-15 13:48:57 · 7132 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战006--DateSet实用API详解006
DateSet的API详解六ReduceGroupdef reduceGroup[R](fun:(Iterator[T])⇒R)(implicit arg0:TypeInformation[R],arg1:ClassTag[R]):DataSet[R]def reduceGroup[R](fun: (Iterator[T], Collector[R]) ⇒ Unit(implicit arg0:原创 2017-11-16 09:30:35 · 7038 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战007--DateSet实用API详解007
DateSet的API详解七sortGroupAdds a secondary sort key to this GroupedDataSet. This will only have an effect if you use oneof the group-at-a-time, i.e. reduceGroup.执行程序://1.创建 DataSet[(Int, String)]val inp原创 2017-11-16 09:37:09 · 7097 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战008--DateSet实用API详解008
DateSet的API详解八distinctdef distinct(firstField: String, otherFields: String*): DataSet[T]def distinct(fields: Int*): DataSet[T]def distinct(): DataSet[T]def distinct[K](fun: (T) ⇒ K)(implicit arg0:原创 2017-11-16 09:40:25 · 7157 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战016--DateSet实用API详解016
DateSet的API详解十六writeAsCsvdef writeAsCsv(filePath: String, rowDelimiter: String = ..., fieldDelimiter: String = ..., writeMode: WriteMode = null): DataSink[T]参数说明:rowDelimiter:行分隔符fieldDelimiter:列分隔原创 2017-11-17 10:01:31 · 7196 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战017--DateSet实用API详解017
一、Flink DataSetUtils常用APIselfval self: DataSet[T]Data Set获取DataSet本身。执行程序://1.创建一个 DataSet其元素为String类型val input: DataSet[String] = benv.fromElements("A", "B", "C", "D", "E", "F")//2.获取input本身val s=in原创 2017-11-17 10:04:38 · 13216 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战018--DateSet实用API详解018
zipWithIndexdef zipWithUniqueId: DataSet[(Long, T)]Method that assigns a unique id to all the elements of the input data set.元素和随机唯一的ID进行zip操作。执行程序://1.创建一个 DataSet其元素为String类型val input: DataSet[Strin原创 2017-11-17 10:08:46 · 6904 阅读 · 1 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战019--DateSet实用API详解019
filterWithdef filterWith(fun: (T) ⇒ Boolean): DataSet[T]Applies a predicate fun to each item of the data set,keeping only those for which the predicate holds可以使用片函数进行filter操作。filterWith示例一:全函数执行程序://原创 2017-11-17 10:10:24 · 6923 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战020--DateSet实用API详解020
一、Flink DateSet定制API详解(Scala版)Map以element为粒度,对element进行1:1的转化执行程序:package code.book.batch.dataset.advance.apiimport org.apache.flink.api.common.functions.MapFunctionimport org.apache.flink.api.scala.{原创 2017-11-17 10:13:47 · 6851 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战021--DateSet实用API详解021
Flink DateSet定制API详解(Scala版) -002flatMap以element为粒度,对element进行1:n的转化。执行程序:package code.book.batch.dataset.advance.apiimport org.apache.flink.api.common.functions.FlatMapFunctionimport org.apache.flink原创 2017-11-17 10:17:27 · 6869 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用020-Flink中参数传递和容错设定004
二、flink中的容错设置flink支持容错设置,当操作失败了,可以在指定重试的启动时间和重试的次数.有两种设置方式1.通过配置文件,进行全局的默认设定2.通过程序的api进行设定。1.通过配置flink-conf.yaml来设定全局容错设定出错重试3次原创 2017-11-20 10:47:08 · 6924 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战004-Flink基于流的window操作002
三、交通场景下time-window实战1.tumbling-time-window (无重叠数据)实战1.0实战目的每5秒钟统计一次,在这过去的5秒钟内,各个路口通过红绿灯汽车的数量。原创 2017-11-20 14:38:51 · 13735 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战015--DateSet实用API详解015
DateSet的API详解十五getParallelismdef getParallelism: IntReturns the parallelism of this operation.获取DataSet的并行度。执行程序://1.创建一个 DataSet其元素为String类型val input0: DataSet[String] = benv.fromElements("A", "B", "原创 2017-11-17 09:57:32 · 7060 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战022--DateSet实用API详解022
Flink DateSet定制API详解(Scala版) -003Reduce以element为粒度,对element进行合并操作。最后只能形成一个结果。执行程序:package code.book.batch.dataset.advance.apiimport org.apache.flink.api.common.functions.ReduceFunctionimport org.apach原创 2017-11-17 10:18:42 · 6984 阅读 · 0 评论 -
云星数据---Apache Flink实战系列(精品版)】:Flink其他操作及内容004-flink的背压机制002
flink背压的两种场景1.本地传输如果task1和task2都运行在同一个工作节点(TaskManager),缓冲区可以被直接共享给下一个task,一旦task 2消费了数据它会 被回收。如果task 2比task 1慢,buffer会以比task 1填充的速度更慢的速度进行回收从而迫使task 1降速。 2.网络传输如果task 1和task 2运行在不同的工作节点上。一旦缓冲区内的数据被发原创 2017-11-22 09:51:43 · 7302 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战009--DateSet实用API详解009
DateSet的API详解九joindef join[O](other: DataSet[O], strategy: JoinHint): UnfinishedJoinOperation[T, O]def join[O](other: DataSet[O]): UnfinishedJoinOperation[T, O]Creates a new DataSet by joining this Da原创 2017-11-16 09:54:53 · 6978 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战010--DateSet实用API详解010
DateSet的API详解十leftOuterJoindef leftOuterJoin[O](other: DataSet[O], strategy: JoinHint): UnfinishedOuterJoinOperation[T, O]def leftOuterJoin[O](other: DataSet[O]): UnfinishedOuterJoinOperation[T, O]An原创 2017-11-16 09:57:49 · 7115 阅读 · 2 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战011--DateSet实用API详解011
DateSet的API详解十一fullOuterJoindef fullOuterJoin[O](other: DataSet[O], strategy: JoinHint): UnfinishedOuterJoinOperation[T, O]deffullOuterJoin[O](other: DataSet[O]): UnfinishedOuterJoinOperation[T, O]Spe原创 2017-11-16 10:00:09 · 6953 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战012--DateSet实用API详解012
DateSet的API详解十二crossdef cross[O](other: DataSet[O]): CrossDataSet[T, O]Creates a new DataSet by forming the cartesian product of this DataSet and the other DataSet.交叉。拿第一个输入的每一个元素和第二个输入的每一个元素进行交叉操作。cro原创 2017-11-16 10:01:44 · 6876 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战013--DateSet实用API详解013
DateSet的API详解十三crossWithTinydef crossWithTiny[O](other: DataSet[O]): CrossDataSet[T, O]Special cross operation for explicitly telling the system that the right side is assumed to be a lot smaller than原创 2017-11-16 10:04:42 · 7202 阅读 · 0 评论 -
【云星数据---Apache Flink实战系列(精品版)】:Apache Flink批处理API详解与编程实战014--DateSet实用API详解014
DateSet的API详解十四Uniondef union(other: DataSet[T]): DataSet[T]Creates a new DataSet containing the elements from both this DataSet and the other DataSet.合并多个DataSet。执行程序://1.定义 case classcase class Stud原创 2017-11-16 10:08:25 · 569 阅读 · 0 评论