Flink之状态管理与容错机制

最新推荐文章于 2024-08-21 09:51:24 发布

alexdamiao

最新推荐文章于 2024-08-21 09:51:24 发布

阅读量963

点赞数

分类专栏： flink 大数据技术

本文链接：https://blog.csdn.net/alexdamiao/article/details/94043468

版权

本文详细介绍了Flink的状态管理，包括无状态与有状态计算的区别、状态的类型和使用方式，如Managed State与Raw State、Keyed State与Operator State。此外，还深入讨论了容错机制，如Checkpoint的实现以及MemoryStateBackend、FsStateBackend、RocksDBStateBackend等状态存储方式的选择。最后，强调了根据业务场景选择合适状态管理和存储的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 状态管理的基本概念

1.1 什么是状态

1.1.1 无状态的例子：消费延迟计算

消息队列：

一个生产者持续写入，多个消费组分别读取，如何实时统计每个消费者落后多少条数据？

//输入
{
	"timestamp": 1555516800,
	"offset":
	{
		"producer": 16,
		"consumer0": 10,
		"consumer1": 7,
		"consumer2": 12
	}
}
//输出
{
	"timestamp": 1555516800,
	"lag":
	{
		"consumer0": 5,
		"consumer1": 8,
		"consumer2": 3
	}
}

单条输入包含所需的所有信息
相同输入可以得到相同输出

1.1.2 有状态计算的例子：访问量统计

Nginx访问日志，每个请求访问一个URL地址，如何实时统计每个地址总共被访问了多少次？

输入输出：

{
	"@timestamp": "18/Apr/2019:00:00:00",
	"remote_addr": "127.0.0.1",
	"request": "GET",
	"url": "/api/a"
}
{
	"url": "/api/a",
	"count": 1	
}

{
	"@timestamp": "18/Apr/2019:00:00:00",
	"remote_addr": "127.0.0.1",
	"request": "POST",
	"url": "/api/b"
}
{
	"url": "/api/b",
	"count": 1	
}

{
	"@timestamp": "18/Apr/2019:00:00:00",
	"remote_addr": "127.0.0.1",
	"request": "GET",
	"url": "/api/a"
}
{
	"url": "/api/a",
	"count": 2
}