Flink
javartisan
年轻人,静下心来做事吧!
展开
-
Apache Flink:特性、概念、组件栈、架构及原理分析
转至:http://www.uml.org.cn/yunjisuan/201610264.aspApache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(Flink Runtime),提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为他们它们所提供的SL转载 2017-03-22 17:07:53 · 742 阅读 · 0 评论 -
Flink之Java 8
地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/java8.htmlJava8引入新特性,可以更快更清晰的编程,最重要的特性就是Lambda表达式,开启了Java函数式编程的大门。Lambda表达式允许实现和传递匿名函数!例如:words.map{x=>(x,1)}中的x=>(x,1)就是一个原创 2017-04-17 13:13:13 · 2979 阅读 · 0 评论 -
Flink Basic API Concepts 学习笔记&译文
地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/api_concepts.html#Flink也是常规的分布式程序,在分布式数据集上实现了transformation算子,例如: filtering, mapping, updating state, joining, grouping, defi原创 2017-04-17 11:18:10 · 2295 阅读 · 1 评论 -
Flink之修改StreamExecutionEnvironment配置Job
地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/execution_configuration.html对于批处理程序修改配置代码如下: val env = ExecutionEnvironment.getExecutionEnvironment val conf = env.ge原创 2017-04-17 14:21:48 · 9150 阅读 · 0 评论 -
Flink Java与Scala的Api类型不匹配问题
由于之前写的程序是Java版本,之后改写Scala版本时候就把import 包直接复制到Scala文件的包上,然后报错:Java程序引包如下:import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.cep.CEP;import org.apache.flink原创 2017-04-24 15:56:58 · 5175 阅读 · 0 评论 -
Flink如何应对背压问题
转至:http://blog.csdn.net/yanghua_kobe/article/details/51214097经常有人会问Flink如何处理背压问题。其实,答案很简单:Flink没用使用任何通用方案来解决这个问题,因为那根本不需要那样的方案。它利用自身作为一个纯数据流引擎的优势来优雅地响应背压问题。这篇文章,我们将介绍背压问题,然后我们将深挖Flink的运行时如何在task之间转载 2017-06-15 21:43:15 · 1813 阅读 · 0 评论 -
Flink Streaming - Triggers and Evictors
In the last blog, we looked at the two basic types of Windows in Flink - Sliding and Tumbling windows. In the blog, I will explain you two important concepts that can be used in Flink - Triggers and原创 2017-06-19 22:18:45 · 758 阅读 · 1 评论 -
Queryable States in ApacheFlink - How it works
QueryableStates allows users to do real-time queries on the internal state of the stream without having to store the result on to any external storage. This opens up many interesting possibilities sin原创 2017-06-19 22:34:30 · 726 阅读 · 1 评论 -
Queryable States in ApacheFlink - Implementation
This is part 2 of the blog Queryable States in Apache Flink. In the previous blog, we saw how Apache Flink enabled Queryable States. In this part, we will create a Streaming Job with Queryable State原创 2017-06-19 22:36:07 · 1112 阅读 · 0 评论 -
Flink Table API和SQL实践
任务原创 2017-06-20 15:20:24 · 3435 阅读 · 0 评论 -
Scala的eq,ne,equals,==方法与Java异同
Any是Scala继承关系中的根类,继承关系图如下:Any根类的代码:abstract class Any { def equals(that: Any): Boolean def hashCode(): Int def toString(): String final def getClass(): Class[_] = sys.error("getCla原创 2017-04-24 16:39:27 · 2729 阅读 · 0 评论 -
Flink提交作业的两种方式
抛砖引玉:在Spark集群提交作业时候可以使用--deploy参数指定client或者cluster方式提交作业到集群,前者是客户端模式,后者是集群模式,两者主要区别就是Driver的运行位置,在客户端模式下,Driver运行在提交作业的客户端机器上负责与集群进行资源申请调度等工作。而集群模式下Driver运行在集群中的某一个节点上负责资源申请以及调度。一般的,客户端模式适合程序的调试,这原创 2017-06-06 17:02:46 · 12967 阅读 · 0 评论 -
Flink WaterMark机制白话分析
最近遇见一个流处理的数据严重迟到乱序的场景,基于Saprk Streaming开发的统计用户页面停留时间。使用的思想是:迟到数据的时间补偿机制。由于Spark不支持乱序的支持,所以自行实现了一个容器保存一定量的历史数据,最后对迟到的数据插到历史容器中,对插入数据的位置进行局部计算求补偿时间最后添加到累计停留时间中,大概这个思想。有时间会分享出来。这个场景要我想起了Flink对乱序支持的机制,因为又原创 2017-09-14 09:46:11 · 7345 阅读 · 4 评论 -
关于Spark Streaming微批次,Flink真正流处理 消费Kafka数据,处理数据的差距对比
困惑1:Spark Streaming微批次,Flink真正流处理系统差别在哪里?是因为消费Kafka数据的逻辑不同吗?(本文以Kafka为数据源举例)Spark Streaming微批次很容易理解,一次处理一个微批次的数据。而Flink代表的真正的流处理是一次处理一条数据。那么消费Kafka数据逻辑中,是不是在微批次中一次消费一个批次的数据,而真正流处理一次消费一个记录呢?答案是否定的。这两原创 2017-10-09 19:42:24 · 2882 阅读 · 0 评论 -
Flink Scala API Extensions学习笔记以及翻译
原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/scala_api_extensions.htmlScala API Extensions为了保持Scala Api的数量和Java Api数量相当的话,对于批处理和流处理Scala可以有较高的表达能力。如果你喜欢Scala的开发原创 2017-04-17 12:35:38 · 1186 阅读 · 0 评论 -
Flink Event Time Processing and Watermarks
由于之前一直看Flink官方文档学习Flink,但是由于看到WaterMark时候弄得满头雾水,便开始到处搜寻WaterMark的资料,在国外网站找到一篇很容易理解WaterMark的博文,再次分享一下!If you are building a Realtime streaming application, Event Time process原创 2017-05-11 08:43:22 · 1733 阅读 · 5 评论 -
Flink入门之Standalone模式集群伪分布式搭建
1:首先配置Java相关环境以及Flink下载,解压就不说了。2:接下来看看Flink的conf的配置文件: 这里面需要我们配置的有:slaves和flink-conf.yaml文件,这里面masters文件是用来配置HA的,只要我们不配置HA的话,就不需要配置masters文件(fl...原创 2017-03-22 21:49:47 · 4641 阅读 · 8 评论 -
Why Apache Flink®?
Stream processingImplement robust continuous applications that never stop and get immediate insights from your data. Low latencyWrite latency-critical applications with millisecond respons原创 2017-04-17 19:58:25 · 528 阅读 · 0 评论 -
Flink DataSet API Programming Guide学习&译文(未完待续)
地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/index.html注意:本文以Scala Api为学习语言Flink也是常规的分布式程序,在分布式数据集上实现了transformation算子,例如: filtering, mapping, updating state,原创 2017-04-18 10:48:14 · 1908 阅读 · 0 评论 -
Flink关于加速器的使用
加速器定义: Accumulators collect distributed statistics or aggregates in a from user functions and operators. Each parallel instance creates and updates its own accumulator object, and the different pa原创 2017-04-18 12:47:09 · 1069 阅读 · 0 评论 -
Flink广播的使用
官网参考地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/index.html#broadcast-variables广播的定义:Broadcast variables allow you to make a data set available to all parallel inst原创 2017-04-18 13:50:01 · 3245 阅读 · 0 评论 -
Flink分布式缓存
官方参考文档地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/index.html#distributed-cacheFlink提供了一个类似于Hadoop的分布式缓存,让并行运行实例的函数可以在本地访问。这个功能可以被使用来分享外部静态的数据,例如:机器学习的逻辑回归模型等!缓存的使用原创 2017-04-18 14:33:38 · 3313 阅读 · 0 评论 -
No Implicit Value for Evidence Parameter Error
转载至:https://www.iteblog.com/archives/2047.html大多数刚刚使用Apache Flink的人很可能在编译写好的程序时遇到如下的错误:Error:(15, 26) could not findimplicit value forevidence parameter of typeorg.原创 2017-04-17 15:01:14 · 4336 阅读 · 0 评论 -
Flink传递参数给函数
原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/index.html#passing-parameters-to-functionsPassing Parameters to Functions 参数可以使用构造函数或者withParameters(Configuration)方法原创 2017-04-18 16:16:15 · 6207 阅读 · 1 评论 -
Flink 代码方式提交程序到远程集群运行
在学习Flink时候,看到如下方法,可以获取到远程集群上的一个ExecutionEnvironment实例,便尝试使用一下,将本地IDE作业提交到集群运行,代码如下: def createRemoteEnvironment(host: String, port: Int, jarFiles: String*): ExecutionEnvironment 代码:pack原创 2017-04-18 19:48:02 · 24694 阅读 · 5 评论 -
Apache Spark vs Apache Flink
Apache Flink is an open source platform for distributed stream and batch data processing. Flink’score is a streaming dataflow engine that provides data distribution, communication, and fault toler原创 2017-04-15 21:53:14 · 998 阅读 · 0 评论 -
Flink DataStream API Programming Guide学习&译文(未完待续)
Flink DataStream API Programming GuideDataStream programs in Flink are regular programs that implement transformations on data streams (e.g., filtering, updating state, defining windows, aggre原创 2017-04-19 15:31:32 · 671 阅读 · 0 评论 -
Flink Shell On Yarn
Flink Shell On Yarn 启动 start-scala-shell.sh yarn 一直报错:Exception in thread "main" java.lang.UnsupportedOperationException: Could not resume a Yarn cluster. at org.apache.flink.yarn.cli.FlinkYar原创 2017-04-16 14:05:35 · 1164 阅读 · 0 评论 -
Apache Flink® 入门介绍以及编程模型
在业余时间经常来Flink官网查阅文档,零零散散的看不成系统,最近打算系统的做一下笔记。有官网主页我们便知道Flink是什么?Apache Flink® is an open-source stream processing framework for distributed, high-performing, always-available, and accurate data s原创 2017-03-22 17:04:03 · 1295 阅读 · 0 评论 -
Flink On Yarn 异常排除过程以及根据字节码名字获取jar文件名字
最初学习Flink,写了一个简单的wordcount运行一下,发现报错,异常信息如下: The program finished with the following exception:java.lang.RuntimeException: Error deploying the YARN cluster at org.apache.flink.yarn.cli.FlinkYarnSe原创 2017-11-22 11:31:58 · 7337 阅读 · 3 评论