![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 78
代码编制世界
大数据
展开
-
kafka(二)幂等性、事务、kafka Streaming
1、kafka生产批(优化)producer会尝试缓冲record,实现批量发送,通过以下配置控制发送时机。batch.size:当多条消息发送到一个分区时,生产者会进行批量发送,这个参数指定了批量消息的大小上限(以字节为单位)。linger.ms:这个参数指定生产者在发送批量消息前等待的时间,当设置此参数后,即便没有达到批量消息的指定大小,到达时间后生产者也会发送批量消息到broker。properties.put(ProducerConfig.BATCH_SIZE_CONFIG,2048);原创 2021-02-14 18:55:03 · 360 阅读 · 0 评论 -
kafka(一)基本概念、集群搭建及API使用及框架整合
官网:http://kafka.apache.org/1、kafka概念及原理Apache Kafka® is a distributed streaming platform——分布式的流数据平台1.1 kafak简介kafka具备三项关键能力:①发布、订阅记录流,类似于消息队列或者企业级消息系统。②以一种容错持久化的方式存储记录流(默认可以保存7天)。③实时处理加工流数据(kakfa streaming)。kafka的应用场景:①构建实时的流数据管道,可靠的在系统和应用之间获取数据。原创 2021-02-10 10:34:03 · 394 阅读 · 2 评论 -
redis之全面解析
1、什么是redis?redis是一种基于内存并且可以持久化到硬盘的key-value型noSql数据库,支持丰富的数据类型如:String、List、Set、ZSet、Hash五种数据类型。是单线程,单进程,不支持并发操作,因为速度非常之快(Redis读的速度是110000次/s,写的速度是81000次/s), 所以也可称做宏观并行,微观串行。2、单机和集群搭建2.1 单机版(仅仅入门学习使用)环境准备:centos7、redis-4.0.10.tar.gz①关闭防火墙systemctl st原创 2021-02-08 18:30:24 · 707 阅读 · 0 评论 -
flink window之Window Join
基本语法:stream.join(otherStream) .where(<KeySelector>) .equalTo(<KeySelector>) .window(<WindowAssigner>) .apply(<JoinFunction>)1、Tumbling Window Join案例:val fsEnv = StreamExecutionEnvironment.getExecutionEnvironmen原创 2021-01-20 23:32:52 · 562 阅读 · 0 评论 -
flink window之Triggers、evictor以及基于Event Time的window对于迟到数据的处理
1、Trigger触发器(Trigger)决定何时由“Window Function”处理窗口, 每个WindowAssigner都带有一个默认Trigger。 如果默认触发器不符合您的需求,则可以使用trigger(...)指定自定义触发器。WindowAssigners触发器global windowNeverTriggerevent-time windowEventTimeTriggerprocessing-time windowProcessingTimeT原创 2021-01-20 23:27:46 · 783 阅读 · 0 评论 -
flink window之四大window functions
在前面的文章中,博主分享了flink的四大assigner,有需要的发烧友点击链接https://blog.csdn.net/qq_44962429/article/details/112912432查询,欢迎指出问题,交流分享!本文主要介绍flink的window functionswindow functions当系统认定窗口就绪之后会调用Window Functions对窗口实现聚合计算。常见的Window Functions有以下形式: ReduceFunction, AggregateFun原创 2021-01-20 22:58:21 · 258 阅读 · 0 评论 -
flink window之四大WindowAssigner
Windows是流计算的核心。Windows将流分成有限大小的“buckets”,我们可以在其上应用聚合计算(ProcessWindowFunction,ReduceFunction,AggregateFunction或FoldFunction)等。在Flink中编写一个窗口计算的基本结构如下:Keyed Windowsstream .keyBy(...) .window(...) <- 必须制定: 窗口类型 [原创 2021-01-20 22:40:49 · 901 阅读 · 0 评论 -
flink之checkpoint、savepoint,Flink计算发布之后是否还能够修改计算算子?(指状态恢复)
1、chekpoint、savepointCheckPoint是Flink实现故障容错的一种机制,系统会根据配置的检查点定期自动对程序计算状态进行备份。一旦程序在计算过程中出现故障,系统会选择一个最近的检查点进行故障恢复。SavePoint是一种有效的运维手段,需要用户手动触发程序进行状态备份,本质也是在做CheckPoint。./bin/flink cancel -m centos:8081 -s hdfs:///savepoints f21795e74312eb06fbf0d48cb8d90489原创 2021-01-20 22:11:12 · 825 阅读 · 0 评论 -
flink之Operator State(non-keyed state)
flink介绍,flink对所有的算子都支持有状态计算,在博主之前分享的文章中,关于keyed state已经做过很详细的介绍,欢迎各位发烧友点击https://blog.csdn.net/qq_44962429/article/details/104428236交流虽然在我们平时的生产环境中,关于keyed state应用的比较多,但是对于那些基于窗口输出到外部系统的需要,为了数据不丢失或者重复输出到外部系统,sink算子也是需要进行保存状态的,接下来本文主要介绍Operator state1、Ope原创 2021-01-20 22:01:08 · 1261 阅读 · 0 评论 -
flink之TTL(Time To Live),State Backend,How to Clear State?
Flink在管理状态方面,使用Checkpoint和Savepoint实现状态容错。Flink的状态在计算规模发生变化的时候,可以自动在并行实例间实现状态的重新分发,底层使用State Backend策略存储计算状态,State Backend决定了状态存储的方式和位置。Flink在状态管理中将所有能操作的状态分为Keyed State和Operator State。Keyed State类型的状态同key一一绑定,并且只能在KeyedStream中使用。所有non-KeyedStream状态操作都叫做原创 2021-01-20 21:29:31 · 760 阅读 · 0 评论 -
hive开启动态分区,文件压缩
开启动态分区set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.dynamic.partition=true;开启压缩set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;开启文件合并默认大小为128Mset hive.merge.tezfiles=tru原创 2021-01-18 09:13:11 · 367 阅读 · 0 评论 -
flink table & sql(二)tableAPI
接上篇博客,本篇文章介绍一下tableAPI的基本使用8、table api1、Scan, Projection, and Filter(1)filter,isNotNull(),and,lowerCase(),as,count(),avg(),end,startpackage com.flink.sql.environment.tableAPI;import org.apache.flink.api.common.functions.MapFunction;import org.apache原创 2020-09-23 14:13:06 · 418 阅读 · 0 评论