Flink
forerunner123
这个作者很懒,什么都没留下…
展开
-
Flink UDF函数(Function)
接口Function -》接口FilterFunction、MapFunction、FlatMapFunction、ReduceFunction、CoMapFunction自定义Function,实现以上函数,并重写内部的方法。ds.reduce(new myFunction());class myFunction implements ReduceFunction<SensorReading>() { @Override public S原创 2021-03-21 19:59:36 · 351 阅读 · 0 评论 -
Flink支持的数据类型
flink是以数据对象表示数据流,这些数据对象在网络传输及存储过程中需要被序列化,反序列化;flink有类型提取系统,能够分析函数的输入和返回类型。但是某些情况下仍需要显示的给出类型信息,从而获得序列化、反序列化器。一、基本数据类型int/Double/String等及其包装类型Integer、二、Tuples三、scala样例类case class四、Java对象POJOs五、Arrays、Lists、Map等...原创 2021-03-21 16:09:48 · 638 阅读 · 0 评论 -
FlinkAPI(二)
一、Transformation操作1,map、flapmap、filterpublic class transTest1_Base { public static void main(String[] args) throws Exception{ StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1)原创 2021-03-21 15:59:24 · 76 阅读 · 0 评论 -
Flink流处理API(一)
一、创建执行环境Environment1,getExecutionEnvironmentExecutionEnvironment evn = ExecutionEnvironment.getExecutionEnvironment();//此方法做了封装,在本地执行环境下会返回本地的执行环境变量,在集群环境会返回集群环境的变量,env默认并行度设置在flink-conf.yaml内;LocalStreamEnvironment env = StreamExecutionEnvironment.cr原创 2021-03-21 10:56:07 · 86 阅读 · 0 评论 -
Flink运行时架构
一、运行时组件JobManager:控制应用程序运行的主进程Master,将jobGraph转换成可执行的数据流图(Execution Graph),包含可并发的task;向ResourceManager申请资源(slot),将executionGraph分发到TaskManager上。同时作为中央协调器,如checkpoints操作。应用程序:作业图JobGraph、逻辑数据流图(logical dataflow graph)、打包的类库及其他jar包;TaskManager:工作进程,包含一定原创 2021-03-20 21:23:25 · 203 阅读 · 0 评论 -
Flink安装部署
一、standalone模式解压缩flink-1.1.0.1-bin-scala_2.12.tgz,进入conf目录。1)修改conf/flink-conf.yaml 文件通用配置:jobmanager.rpc.address:作业管理远程过程调用地址,同时也是默认的jobmanager节点job.manager.rpc.addressjobmanager.heap.size: JVM大小taskmanager.memory.process.size: taskmanager的总内存(包含jv原创 2021-03-20 17:35:08 · 277 阅读 · 0 评论 -
Flink简单上手wordCount
一、本地环境离线写wordcountpom.xml配置 <dependencies> <dependency> <groupId>org.apache.flink</groupId> //源码是由Scala写的,多线程由akka实现 <artifactId>flink-streaming-java_2.12</artifactId> <version>1.10.1原创 2021-03-20 11:46:39 · 132 阅读 · 0 评论 -
flink简介
Apache flink是一个框架和分布式处理引擎,用于对无界和有界数据流 进行状态计算。实时数据处理特性:低延迟高吞吐结果的准确和容错性来一条处理一条,还是攒一批(一定量、或者一定时间)再处理,同时满足低延迟、高吞吐、容错。流数据行业:物联网:传感器实时数据采集银行金融业电商、市场营销:数据报表、广告投放电信数据处理演变过程:(1)用户事件+后台处理+存储传统架构下,在数据量变得过大时,吞吐低,响应慢,甚至数据丢失2,离线处理能够处理大批量数据,但是响应慢第一原创 2021-03-20 09:24:27 · 146 阅读 · 1 评论