flink-状态

最新推荐文章于 2024-07-28 16:45:11 发布

XLF763

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量201

点赞数 2

文章标签： flink 大数据

本文链接：https://blog.csdn.net/qq_18494057/article/details/138619409

版权

1. 问题

状态对flink计算至关重要，评估状态保留时间就非常重要。

短了，丢状态，计算不准。长了，状态大，影响性能。

2. sum group by

select key ，count(*) from table group by key .

评估：相同的key ，多久之后绝对不会重复重现。

状态丢失的后果：丢失以前汇总的值，从头计算。

优化：加一个时间，评估数据延迟程度

select key ，dt ,count(*) from table group by key , dt

只要状态保留时间大于一天+最大延迟时间就不会有问题。

3. 根据处理时间去重去第一条

select * from (
select *，
row_number()  over (partition by  key  order by  proc_time asc) rn
) t  where  rn=1

效果：第一个key出现后，后面出现的相同的key都会被过滤掉

评估：第一个key出现后，相同的key多久以后绝对不会再出现

状态丢失的后果：过滤不准确，想通的key会有多条记录。

写这个好无聊，先挂着吧

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

XLF763

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
flink-状态

状态对flink计算至关重要，评估状态保留时间就非常重要。短了，丢状态，计算不准。长了，状态大，影响性能。
复制链接

扫一扫

Flink SQL使用Row_number去重是否会导致状态无限增长

修破立生

02-23

861

在Flink SQL中使用ROW_NUMBER去重是一个比较常见的场景，那么这种去重方式是否把所有的历史数据都缓存在状态中导致状态无限增长？Flink SQL使用Row_number去重时，状态中只会保留最新的1或者n条数据，单个主键的状态不会无限增长。观察一段时间，发现状态的大小稳定在186KB，不再增长。状态只保留了最新的2000条数据。接下来，通过以下实验观察状态的增长来解答以上的问题。

Flink - 状态后端

weixin_40968325的博客

04-29

1122

本文主要介绍了flink的状态后端

1 条评论您还未登录，请先登录后发表或查看评论

Flink-状态编程

m0_63475429的博客

10-23

2670

在 Flink 中，状态始终是与特定算子相关联的；算子在使用状态前首先需要“注册”，其实就是告诉 Flink 当前上下文中定义状态的信息，这样运行时的 Flink 才能知道算子有哪些状态。状态的注册，主要是通过“状态描述器”（StateDescriptor）来实现的。状态描述器中最重要的内容，就是状态的名称（name）和类型（type）。我们知道 Flink 中的状态，可以认为是加了一些复杂操作的内存中的变量；

Flink--状态后端

shall潇の菜园

07-19

3752

文章目录一、是什么三、如何用一、是什么再讲状态后端是什么之前，我要说一句：Flink中状态（State）是什么？看一下官网怎么说状态后端：状态都需要存储到状态后端(StateBackend)，然后在checkpoint触发时，将状态持久化到外部存储系统。Flink提供了三种类型的状态后端，分别是基于内存的状态后端(MemoryStateBackend)、基于文件系统的状态后端(FsStateBackend)以及基于RockDB作为存储介质的RocksDB StateBackend。简而言之

Flink on Kubernetes (flink-operator) 部署Flink

javaMylife的博客

03-27

1204

部署cluster完成，配置svcType 后即可访问，flink web ui，此时jobManager是启动着的 taskmanager随着flink jar进行启动和停止。3、使用initContainers和 containers使用相同的挂载路径，然后使用远程文件下载放到挂载路径中，containers就能获取到该jar包。此处jarURL只得是docker内部路径，且不支持远程路径（http/s3/hdfs），因此需要将jar包放到docker内部。2、可以使用pvc挂载进去。

Flink-CDC解析（第47天）

syhiiu的博客

07-27

2164

本文主要概述了Flink-CDC

Flink笔记整理（四）

LUyan10086的博客

07-24

1451

Flink是一个批流一体的框架，Flink的批处理就是借助其中的窗口功能实现。在批处理统计中，我们可以等待一批数据都到齐后，统一处理。但是在实时处理统计中，我们是来一条就得处理一条，那么我们怎么统计最近一段时间内的数据呢？引入“窗口”。所谓的“窗口”，一般就是划定的一段时间范围，也就是“时间窗”；对在这范围内的数据进行处理，就是所谓的窗口计算。所以窗口和时间往往是分不开的。接下来我们就深入了解一下Flink中的时间语义和窗口的应用。Flink是一种流式计算引擎，主要是来处理无界数据流的，数据源源不断、无穷

在 Windows 搭建 flink 运行环境并模拟流数据处理

明而决之

07-24

937

在大数据场景中，开发者追求高效与灵活，Linux 系统以其稳定性成为众多组件的首选，但在资源有限的情况下，在本机搭建一个 Linux 虚拟机集群却显得过于笨重，启动、运行占资源，需要配置网络，无法和windows共享资源，尤其是对只有 8GB 内存的 Windows 系统用户来说，内存压力显而易见。尽管如此，也挡不住一个学习者的“热情”。本文介绍怎么在 Windows 本地搭建 Flink 环境，注意这是一个伪分布式的测试环境。

Flink之重启策略

zxcvbnm0207的博客

07-24

491

在设置完 CheckPoint() 检查点机制后，不设置重启策略的话，，可以无限重启程序，那么设置的检查点机制也就没有什么意义了。因此，在生产实践中，当设置完检查点之后，我们要与之设置好重启策略，一般有三种策略可选。

分布式系统常见软件架构模式

Ben的专栏

07-25

959

简而言之，有效管理数据和通信流对于构建健壮且可扩展的分布式系统至关重要。对等、API 网关、发布-订阅、请求-响应、事件溯源、ETL、批处理、流处理和编排等架构模式提供了有价值的解决方案，以应对系统设计和实现中的各种挑战。通过理解这些软件架构和分布式系统模式及其各自的优势和权衡，架构师和开发人员可以做出明智的决策，设计出满足其应用程序和用户不断变化的需求的系统。

消息队列-rabbitmq（生产者.消费者. 消息.可靠性）

最新发布

2202_75352238的博客

07-28

294

在我们生产者发送消息到交换机的时候，假如我们发送到交换机，但是队列没有收到消息，会返回ack，发送到交换机，然后发送到队列，消费者没有接收到消息返回ack，但是发送到交换机失败，会返回nack。死信交换机，都是假如一个定时消息过期了，或者发送延迟消息我们直接把该消息传递到我们绑定的死信交换机中，跟上文消息发送失败了返回rejct之后，消息发送到err交换机是两种不同的策略。当一条消息发送失败的时候，消费者重新尝试消费消息，达到我们重试的次数之后，消费者返回reject，mq直接删除消息。

Spark RPC框架详解

小昌昌的博客

07-22

1031

SparkContext构造过程的重要一步，就是Driver、ApplicationMaster以及Executor之间的协调和通信过程，这是基于RPC进行的。这里的Spark RPC是基于Netty的通信过程，而Netty的通信其实是基于Reactor架构进行的，Reactor架构其实是基于Java NIO模型进行的。本文详细讲解了基于Netty 的 SparkRPC 框架的实现细节。

Kafka知识总结（选举机制+控制器+幂等性）

月伴飞鱼

07-27

767

其他Broker启动时也会在Zookeeper中创建临时节点，但是发现节点已经存在，所以它们会收到一个异常，意识到控制器已经存在，那么就会在Zookeeper中创建Watch对象，便于它们收到控制器变更的通知。他只能保证单分区上的幂等性，即一个幂等性Producer只能够保证某个topic的一个分区上不出现重复消息，无法实现多分区的幂等。控制器上保存了最全的集群元数据信息，其他所有 Broker 会定期接收控制器发来的元数据更新请求，从而更新其内存中的缓存数据。目前，当有新 Broker 启动后，它会在。

工作中es客户端常见使用错误

07-24

376

es客户端常见错误

杭州东网约车管理再出行方面取得的显著成效

2301_81759256的博客

07-25

491

本次革新，沧穹科技首创将音频“室内北斗”应用于网约车智能导航，利用其信号的空间传播特性和信号传播时间或相位差的精确测量技术，实现网约车智能化服务中对车辆与乘客实时位置的精确追踪，从而确保从预约到乘车的全流程实现智能化、可视化、灵活化管理。同时，管理部门还利用大数据分析，对网约车运营情况进行实时监控和分析，及时发现问题并进行处理，确保了网约车服务的稳定性和可靠性。同时，管理部门还将持续关注行业动态和乘客需求变化，不断优化服务流程和提高服务质量，为广大市民和游客提供更加便捷、安全、舒适的出行体验。

压测实操--produce压测方案

07-24

943

作者：九月环境信息：操作系统centos7.9，kafka版本为hdp集群中的2.0版本。

自定义维度映射：Kylin Cube设计的高级玩法

2401_85763639的博客

07-25

597

维度的自定义映射是指用户可以根据实际需求，将数据源中的列映射到Cube的维度，而不是简单地使用一对一的映射。直接映射：将数据源中的列直接映射到Cube的维度。转换映射：对数据源中的列进行转换后，再映射到Cube的维度。组合映射：将多个数据源列组合成一个维度。在Kylin中，维度的自定义映射可以通过修改Cube的定义来实现。定义数据模型：在Hive中创建数据表，并定义好需要映射的列。编写Hive脚本：编写Hive SQL脚本来转换和组合数据源列。创建Cube。

flink-streaming

01-07

通过flink-streaming，用户可以方便地提交、停止和监控Flink作业，以及查看作业的状态和日志。要使用flink-streaming，您可以按照以下步骤进行操作： 1. 下载flink-streaming平台：您可以从引用中提供的下载地址...