可扩展的多代理强化学习在能源管理系统中的应用——以分布式控制住宅能源灵活性为例

本文提出了一种利用离线凸优化和边际贡献奖励的多智能体强化学习方法,以协调分布式住宅能源系统中的电动汽车、空间加热和柔性负载。通过固定Q表,消费者无需共享数据即可评估影响。案例研究显示,这种方法在节能、减排等方面创造了价值。
摘要由CSDN通过智能技术生成

深度强化学习电气工程复现文章,适合小白学习
关键词:能源管理系统 多主体强化学习 需求侧响应 智能电网
编程语言:python平台
主题:可扩展的多代理强化学习用于分布式控制住宅能源灵活性
内容简介:
摘要—针对分布式住宅能源,提出了一种新的可扩展的基于多智能体强化学习的协调方法。
协作主体学习在一个部分可观测的随机环境中控制电动汽车、空间加热和柔性负载提供的灵活性。
在标准独立 Q- 学习方法中,随机环境中局部可观测智能体的协调性能随尺度的变化而下降。
在这里,从历史数据的离线凸优化学习和隔离边际贡献的奖励信号总回报的新组合增加稳定性和表现的规模。
使用固定大小的 Q 表,消费者能够评估他们对整个系统目标的边际影响,而无需彼此或与中央协调员共享个人数据。
案例研究用于评估探索资源、奖励定义和多主体学习框架的不同组合的适应性。
结果表明,由于能源进口成本、损失、配送拥塞控制、电池折旧和温室气体排放的降低,拟议的战略在个人和系统层面创造了价值。
复现论文截图:

ID:47100707822049630

满船清梦乔碧萝


可扩展的多代理强化学习用于分布式控制住宅能源灵活性

摘要
本文针对分布式住宅能源管理系统,提出了一种新的可扩展的基于多智能体强化学习的协调方法。该方法利用协作主体学习,在一个部分可观测的随机环境中控制电动汽车、空间加热和柔性负载提供的能源灵活性。与标准独立Q-学习方法不同,本文采用了离线凸优化学习和隔离边际贡献的奖励信号总回报的新组合,以提高协调性能的稳定性和适应性。该方法不需要消费者彼此或与中央协调员共享个人数据,通过使用固定大小的Q表,消费者仍能够评估他们对整个系统目标的边际影响。通过案例研究,本文评估了不同探索资源、奖励定义和多主体学习框架的组合对系统的适应性,结果表明,该方法在降低能源进口成本、损失、配送拥塞控制、电池折旧和温室气体排放方面创造了价值。

  1. 引言
    随着能源需求不断增长和可再生能源的广泛应用,分布式住宅能源管理系统成为了一个重要的研究领域。该系统包括了多个主体,如电动汽车、空间加热和柔性负载,它们能够提供能源的灵活性。然而,在一个部分可观测的随机环境中协调这些主体的行为是一项具有挑战性的任务。本文提出了一种可扩展的多代理强化学习方法,用于分布式控制住宅能源灵活性。

  2. 相关工作
    在过去的几年中,强化学习在多智能体系统中的应用得到了广泛关注。许多研究都集中在Q学习的改进和扩展上,以应对多智能体系统中的协调问题。例如,XXXX提出了XXXX算法,XXXX提出了XXXX方法,这些方法都取得了一定的成果。然而,这些方法在应对分布式住宅能源管理系统的挑战时仍存在一些限制。

  3. 方法
    本文提出的方法基于离线凸优化学习和隔离边际贡献的奖励信号总回报的新组合。具体而言,我们利用历史数据进行离线凸优化学习,得到了一种能够增加稳定性和表现规模的学习算法。另外,我们通过引入隔离边际贡献的奖励信号总回报,将协调性能提升到一个新的水平。该方法不需要消费者之间共享个人数据,通过使用固定大小的Q表,消费者仍能评估个人行为对整个系统目标的边际影响。

  4. 案例研究
    为了评估本文提出的方法的适应性,我们进行了一系列案例研究。我们分别对探索资源、奖励定义和多主体学习框架进行了不同的组合,并评估了它们对系统的影响。结果表明,通过优化能源进口成本、损失、配送拥塞控制、电池折旧和温室气体排放,本文提出的方法在个人和系统层面均创造了价值。

  5. 结论
    本文针对分布式住宅能源管理系统,提出了一种新的可扩展的基于多智能体强化学习的协调方法。通过离线凸优化学习和隔离边际贡献的奖励信号总回报的新组合,我们提高了协调性能的稳定性和适应性。案例研究结果表明,该方法在降低能源进口成本、损失、配送拥塞控制、电池折旧和温室气体排放方面创造了价值。未来的工作可以进一步探索优化算法和扩展方法,以应对更复杂的分布式住宅能源管理系统。

【相关代码 程序地址】: http://nodep.cn/707822049630.html

  • 30
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值