Mpc笔记

文章介绍了MPC(模型预测控制)的核心概念,包括最优控制的定义,代价函数在单输入单输出和多输入多输出系统中的应用。它强调了模型预测控制相对于最优控制的优势,如处理时变系统和扰动的能力,并概述了滚动优化控制策略。此外,还提到了二次规划作为实现MPC的一种方法。
摘要由CSDN通过智能技术生成

【MPC模型预测控制器】2_最优化数学建模推导_哔哩哔哩_bilibili

1.最优控制与代价函数

最优控制(optimal control)指的是在一定的约束情况下达到最优状态的系统表现,其中约束情况通常是实际环境所带来的限制,比如说如果你去控制方向盘的转向,方向盘的转动自身是有一个极限位置的,再比如说,对于一个卫星控制系统,三轴输出的力,力矩都有自己的极大值。

而如何去定义一个最优状态呢?首先引入一个比较直观的例子,汽车的转向变道问题:

正常来说,汽车转向变道应当追求乘客舒适度情况,如下图;

但如果考虑到紧急避障的问题,那么答案就完全不同了,如下图,当汽车前方遭遇到一辆校车急刹车时,为了躲开它,汽车必须尽快地向一侧变道,而不考虑舒适度问题。

因此,最优是需要结合系统面临的实际情况得出的概念,对于不同的应用背景,应当设定不同的指标去衡量优劣,因此我们引入代价函数(Cost Function)的概念:

首先,对于单输入单输出系统(SISO)而言,衡量系统性能优劣可以用误差的积累值\int_{0}^{t} e^2 dt(越小,代表误差越小,收敛越快)和输入的积累值\int_{0}^{t} u^2 dt(越小,代表控制耗能越少,越节约)来衡量。

由此,我们可以定义代价函数:

J=\int_{0}^{\infty} qe^2+ru^2 dt

函数中的q,r分别表示一个增益系数,如果q大,表示希望误差变得更小,收敛更快;r大,表示更注重输入累积,更注重节能。

接下来,我们把其推广到多输入多输出系统(MIMO),使用状态空间描述为:(这里我们假设前馈矩阵为0)

\dot{X}=AX+BU

Y=CX

此时,衡量系统表现优劣就要引入二次型的知识,我们定义:

J=\int_{0}^{\infty}E^TQE+U^TRUdt

这里的Q和R矩阵一般是我们设定的对角矩阵,我们来举一个简单的例子:

\begin{pmatrix} \dot{x_1} \\ \dot{x_2} \end{pmatrix} =A\begin{pmatrix}x_1 \\ x_2 \end{pmatrix} +B\begin{pmatrix} u_1 \\ u_2 \end{pmatrix}

\begin{pmatrix} y_1 \\y_2 \end{pmatrix} =\begin{pmatrix}x_1 \\ x_2 \end{pmatrix}

我们假定期望输入是0,那么:

E =\begin{pmatrix}y_1-r_1 \\ y_2-r_2 \end{pmatrix}=\begin{pmatrix}x_1 \\ x_2 \end{pmatrix}

U=\begin{pmatrix}u_1 \\ u_2 \end{pmatrix}

E^TQE=\begin{pmatrix}x_1&x_2\end{pmatrix}\begin{pmatrix}q_1&0\\ 0&q_2\end{pmatrix}\begin{pmatrix}x_1 \\ x_2 \end{pmatrix}=q_1x_1^2+q_2x_2^2

U^TRU=\begin{pmatrix}u_1&u_2\end{pmatrix}\begin{pmatrix}r_1&0\\ 0&r_2\end{pmatrix}\begin{pmatrix}u_1 \\ u_2 \end{pmatrix}=r_1u_1^2+r_2u_2^2

我们可以通过代价函数J的大小,来衡量系统表现的优劣,当代价函数取最小值时得到的输入,即可被称为是一种“最优输入”。

2.模型预测控制的引入

那么为什么还要引入模型预测控制的概念呢?最优控制中的代价函数需要计算从0时刻到正无穷时刻的积分,这是一种很贪婪的行为,需要消耗大量算力;同时,系统如果是一个时变系统,或者面临扰动的话,前一时刻得到的最优并不一定是下一时刻的最优值。

J=\int_{0}^{\infty}E^TQE+U^TRUdt

因而我们引入模型预测控制(Model Predictive Control)的概念,对于一般的离散化系统(因为实际计算机实现的控制系统都是离散的系统,连续系统离散化的方法在此不述)。在k时刻,我们可以测量或估计出系统的当前状态y(k),再通过计算得到的u(k),u(k+1),u(k+2)...u(k+j)得到系统未来状态的估计值y(k+1),y(k+2)...y(k+j);我们将预测估计的部分称为预测区间(Predictive Horizon),将控制估计的部分称为控制区间(Control Horizon),在得到最优输入之后,我们只施加当前时刻的输入u(k),而放弃接下来得到的输入序列。

总结如下:模型预测控制在k时刻共需三步;

第一步:估计/测量读取系统的当前状态;

第二步:基于u(k),u(k+1),u(k+2)...u(k+j)进行最优化处理;

离散系统的代价函数可以参考

J=\sum_{k}^{j-1}E_k^TQE_k+u_k^TRu_k+E_N^TFE_N

其中EN表示误差的终值,也是衡量优劣的一种标准。

第三步:只取u(k)作为控制输入施加在系统上。

在下一时刻重复以上三步,在下一步进行预测时使用的就是下一步的状态值,我们将这样的方案称为滚动优化控制(Receding Horizon Control)。

可以看到,每一时刻都需要进行一次预测,这对算力提出了巨大的要求,同时我们在此并没考虑约束问题,这个放在之后讨论。

3.最优化建模

实现MPC有许多方法,这里介绍一种方法:二次规划(Quadratic Programming)

我们首先引入一个离散系统:

x(k+1)=Ax(k)+Bu(k)

我们定义:\small u(k|k)是k时刻预测的输入值,而\small x(k|k)是k时刻预测的状态值,我们设:

X_k=\begin{pmatrix}x(k|k) \\ x(k+1|k) \\ x(k+2|k)\\ ...\\ x(k+N|k)\end{pmatrix}

U_k=\begin{pmatrix}u(k|k) \\ u(k+1|k) \\ u(k+2|k)\\ ...\\ u(k+N-1|k)\end{pmatrix}

对于期望输入为0,输出向量等于状态向量的离散系统:

x(k+1)=Ax(k)+Bu(k)

y(k)=x(k)

e(k)=y(k)-r(k)=y(k)=x(k)

我们可以得到代价函数:

\small J=\sum_{i=0}^{N-1}(x(k+i|k)^TQx(k+i|k)+u(k+i|k)^TRu(k+i|k))+x(k+N)^TFx(k+N)

其中,我们需要求解的是系统的输入u(k),这就需要我们把状态项x(k)给消除掉,处理这个事情需要利用系统的状态方程,首先有

x(k|k)=x(k)

我们可以通过传感器或者状态估计得到系统当前的状态值,这相当于系统的一个初值,由初值和状态方程可以得到其他项为:

x(k+1|k)=Ax(k|k)+Bu(k|k)=Ax(k)+Bu(k|k)

x(k+2|k)=Ax(k+1|k)+Bu(k+1|k)=A^2x(k)+ABu(k|k)+Bu(k+1|k)

......

x(k+N|k)=A^Nx(k)+A^{N-1}Bu(k|k)+...+Bu(k+N-1|k)

我们把它简单整理一下,有:

X_k=\begin{pmatrix}I\\ A\\ A^2\\ ...\\ A^N\end{pmatrix}x(k)+\begin{pmatrix}0&0&...&0\\ B&0&...&0\\ AB&B&...&0\\ ...&...&...&...\\ A^{N-1}B&A^{N-2}B&...&B\end{pmatrix}U_k

我们再令:

M=\begin{pmatrix}I\\ A\\ A^2\\ ...\\ A^N\end{pmatrix}

C=\begin{pmatrix}0&0&...&0\\ B&0&...&0\\ AB&B&...&0\\ ...&...&...&...\\ A^{N-1}B&A^{N-2}B&...&B\end{pmatrix}

我们就得到了最简单的形式:

X_k=Mx(k)+CU_k

\small J=\sum_{i=0}^{N-1}(x(k+i|k)^TQx(k+i|k)+u(k+i|k)^TRu(k+i|k)+x(k+N)^TFx(k+N))\\ =\begin{pmatrix}x(k|k) \\ x(k+1|k) \\ x(k+2|k)\\ ...\\ x(k+N|k)\end{pmatrix}\begin{pmatrix}Q&&&&\\&Q&&&\\&&Q&&\\...&...&...&...&...\\&&&&F\end{pmatrix}\begin{pmatrix}x(k|k) \\ x(k+1|k) \\ x(k+2|k)\\ ...\\ x(k+N|k)\end{pmatrix}^T+U_k^T\begin{pmatrix}R&&&&\\&R&&&\\&&R&&\\...&...&...&...&...\\&&&&R\end{pmatrix}U_k\\

即:

J=X_k^T\overline{Q}X_k+U_k^T\overline{R}U_k

上式还可根据之前推导的公式继续化简,

\small J=X_k^T\overline{Q}X_k+U_k^T\overline{R}U_k=(x(k)^TM^T+U_k^TC^T)\overline{Q}(Mx(k)+CU_k)+U_k^T\overline{R}U_k\\ \\=x(k)^TM^T\overline{Q}Mx(k)+U_k^TC^T\overline{Q}Mx(k)+x(k)^TM^T\overline{Q}CU_k+U_k^TC^T\overline{Q}CU_k+U_k^T\overline{R}U_k

其中,\small U_k^TC^T\overline{Q}Mx(k)\small x(k)^TM^T\overline{Q}CU_k互为转置,但他们彼此又都是常数,所以他们彼此相等,因此有:

\small J=x(k)^TM^T\overline{Q}Mx(k)+2x(k)^TM^T\overline{Q}CU_k+U_k^T(C^T\overline{Q}C+\overline{R})U_k

再令\small M^T\overline{Q}M=G,M^T\overline{Q}C=E,C^T\overline{Q}C+\overline{R}=H

有:

\small J=x(k)^TGx(k)+2x(k)^TEU_k+U_k^THU_k

由此我们就得到了模型预测控制代价函数的简单形式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值