一个项目轻松学AI与电化学电池模型快充耦合实现充电的快人一步,安全无事故

文章探讨了使用深度强化学习(RL)和DDPG算法在先进电池管理系统(BMS)中的应用,特别是在锂离子电池快速充电的控制策略上。相对于传统的基于模型的方法,RL能实现更快的充电控制,并通过模拟真实电池行为的物理模型验证了其效果。RL代理学习状态反馈和输出反馈策略,同时考虑了安全约束如温度、电压和锂电镀的控制,以适应电池老化和参数变化。
摘要由CSDN通过智能技术生成

这是强化学习(RL)在先进的电池管理系统(BMS)中的电池快速充电中的应用。利用深度确定性策略梯度(DDPG)算法,与现有的基于模型的控制策略相比,RL算法能够实现快速充电控制策略。具体地说,我们从状态反馈和输出反馈学习策略的角度提出了RL算法。

小主,点击上方蓝字关注我吧

锂离子电池快速充电的深度强化学习

这是强化学习(RL)在先进的电池管理系统(BMS)中的电池快速充电中的应用。利用深度确定性策略梯度(DDPG)算法,与现有的基于模型的控制策略相比,RL代理能够实现快速充电控制策略。在这个回购中,RL结果通过使用公开的锂钴电池(LiCoO2)电池化学重现。具体地说,我们从状态反馈和输出反馈学习策略的角度提出了RL代理,这可以在子文件夹中找到。

关注我的你,是最香哒!

Results

Learning Curve

Li-plating Constraint Violation

Voltage Constraint Violation

Temperature Constraint Violation

Charging Time

电化学模型代码

基于电池模型下的AI强化学习快充反馈模型,控制温度,SOC,负极电位。

锂离子电池是电气化运输、清洁电力系统和消费电子产品的关键技术。虽然锂离子电池在能量和功率密度方面表现出很好的特性,但容量有限,充电时间长。前者主要与电池的化学性质、材料和设计有关,而后者则依赖于所采用的充电策略。在这种情况下,必须考虑到快速收费和老化之间的权衡。事实上,通过使用侵略电流曲线可以很容易地减少充电时间,这反过来可能导致严重的电池退化效应,如固体电解质间相(SEI)生长和锂电镀沉积。因此,必须强制执行安全约束,以防止可能的热流失和过度充电。

锂离子电池最常见的充电方法是最著名的恒流恒压法(CC-CV)。这在工业中被使用,因为它能够通过一个相对简单的实现提供合理的性能。然而,这种简单的充电算法往往是基于过于保守的约束条件,以牺牲更高的充电时间为代价,降低了安全危险的概率。因此,它并不构成我们所要解决的问题的最优策略——至少不是在所有情况下。由于这些原因,已经采用了几种先进的电池管理策略。特别地,我们可以将它们归类为(i)基于模型的策略,和(ii)无模型的策略。前者寻求根据指定的电池模型寻找最优的输入轨迹,而后者直接与电池交互(在RL语言中表示为“环境”)。将数学模型用于电池控制是文献中的一个大话题。等效电路模型简单、直观,通过总电气参数模拟电池行为,容易识别。电化学模型(EM)比等效电路模型具有更高的精度,以及从电化学的角度描述电池内部现象的能力,因此通常是模拟目的的首选。有许多研究可以调查EMs的健康感知快速充电策略。的作者提出了一个具有健康相关约束的最小时间充电问题,并使用非线性模型预测控制。同样,的作者提出了一种参考调速器方法来解决最小时间充电问题,的作者提出了一种二次动态矩阵控制公式来设计实时模型预测控制的最优充电策略。作者提出了一种简化电化学-热模型的状态估计和模型预测控制方案,以设计健康感知的快速充电策略。该问题被表述为一个线性时变模型预测控制方案,具有一个移动视界状态估计框架。在EMs老化机制的背景下,的作者基于电热老化模型研究了充电速度和降解之间的权衡。中的作者通过制定收缩水平非线性模型的预测控制,最小化了电化学模型的薄膜层增长。考虑了中EM的多目标最优充电问题,其中快速充电策略考虑了充电时间、温度上升和充电损失三个充电阶段。然而,基于模型的充电程序的开发却面临着一些关键的挑战。(i)每个模型都受到不确定性和建模不匹配的影响,从而影响它的准确性。由于控制器的性能取决于模型的精度,因此必须根据实验收集的数据进行适当的参数识别程序。在电化学模型的情况下,通常有几十个参数需要识别。这激发了复杂的优化设计的实验,为参数估计。(ii)电化学模型通常包含大量的状态,从而导致一个大规模的优化问题。此外,大多数状态在现实情况下是不可测量的,因此,需要一个观察者的存在来从可用的测量值中重建完整的状态信息。(iii)模型参数随着电池的老化而漂移。值得注意的是,文献中提出的基于模型的策略都没有考虑到控制策略对参数变化的适应性。

为了克服基于模型的方法的所有局限性,在文献中有大量的努力来设计不依赖于数学模型的快速充电策略。其中一些依赖于基于CC-CV协议的基于规则的适应。的作者提出了一种充电算法,该算法结合了CC-CV充电轮廓和使用扩展卡尔曼滤波器的电池健康估计,其中CC的大小和CV的阈值从估计器中更新。的作者提出了一种依赖于机器学习的快速充电程序的优化设计。特别地,当前的轮廓被参数化为6步,每次10分钟,并使用贝叶斯优化来选择使电池周期寿命最大化的最优序列。[20]的作者提出了一种称为恒流恒温度恒压(CC-CT-CV)的闭环充电技术,其中采用了基于规则的比例积分导数(PID)控制器。这种闭环充电策略构成了一个输出-反馈控制律,使CC-CV协议能够考虑温度约束。需要注意的是,可观察性和可识别性的困难已不再是一个问题,因为该策略只依赖于输出度量。这种基于输出的策略的主要问题在于以下事实:(i)由此产生的充电策略的最优性不再得到保证,(ii)控制器的增益应通过试错法获得,最后(iii)控制器不适应参数的变化。

所有这些挑战都可以通过使用基于强化学习(RL)框架的充电程序来解决。RL框架由一个代理(电池管理系统)组成,它通过根据环境配置(充电时间)采取特定的动作(所施加的电流)来与环境(电池)进行交互。其主要思想是,代理直接从与环境的互动中学习反馈控制策略,即对奖励和状态的观察。控制策略被反复更新,以最大化预期的长期回报。请注意,奖励必须正确设计,以便代理学习如何完成所需的任务。大多数RL算法可以分为两组不同的组:表格方法,如q学习,SARSA,和近似解方法,也被称为近似动态规划(ADP)。前者只有在存在小的、离散的动作和状态集的情况下才能表现良好,而后者甚至可以用于连续的状态和动作空间,从而解决了所谓的“维数诅咒”。另一方面,在温和的假设下证明了前者的收敛性,而在一般情况下,近似方法没有收敛性的证明。最近在使用深度神经网络作为函数近似器的RL应用中取得的成功,大大提高了人们的期望科学界的。从控制系统的角度来看,RL算法的设计涉及到通过最优自适应控制方法计算动态系统的反馈控制律。RL可以看作是一种间接的自适应控制器,其中对值函数的参数进行估计,然后根据估计的值函数对该控制器进行改进。

提出了一种基于深度强化学习框架的受安全约束下的快速充电策略,作为工作的扩展。虽然在之前的工作中,为了评估强化学习对锂离子电池管理的适用性,但这里考虑了一个更复杂的框架,目的是从控制工程的角度开发一个基于rl的BMS。作为第一个贡献,一个基于物理的模型模拟器被认为是真实的植物,以准确地表示细胞内部现象(如老化动力学)。电化学参数是由电池制造商的电化学家直接测量的。很明显,这种精确的模型由于其计算量高,缺乏可观测性和可识别性,不能作为控制器设计的模型,从而进一步激励了RL作为一种无模型控制算法的使用。实现了两种控制方案:第一种考虑全状态可访问性,而第二种方案基于更现实的假设,即只有电池输出可用。最后,本工作的一个重要贡献是开发了一种RL算法,该算法能够适应其随着电池老化而退化时的作用。特别地,考虑了单元参数随时间漂移的模拟场景。研究结果突出了RL通过调整其参数来适应环境变化的能力,从而保证了安全约束的满足。在强化学习算法中,强化学习算法采用深度确定性策略梯度(DDPG)。DDPG是一种处理连续状态和动作空间的行为-批评方法。安全约束被认为是软约束,即代理(控制器)在奖励函数中受到惩罚。

关注gzh 电池BMS工程师赶路人

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值