基于神经网络的时变参数系统仿真优化方法

源自:系统工程与电子技术

作者:吴诗辉  周宇  李正欣  刘晓东  贺波

摘要

时变参数系统的仿真优化问题是一个新兴的研究课题, 相比传统仿真优化, 时变参数系统对实时性的要求高, 而对解的精度要求不高。本文提出将该问题转换为一类神经网络预测问题, 并从理论上证明了该方法的可行性。首先, 线下构建神经网络模型描述输入参数到最优解的映射关系; 然后, 利用训练好的神经网络模型线上实时预测最优解。考虑到边界样本对最优解拟合曲面的影响, 提出构建中心样本和边界样本,分别训练两个神经网络模型。仿真和实例表明, 该方法能够随时变参数的变化实时给出满意解, 从而为求解时变参数仿真优化问题提供一种新的解决思路。

关键词

时变参数 ; 仿真优化 ; 神经网络 ; 在线优化

引言

在现实生活中, 许多依赖仿真进行评估的实时策略优化问题, 都可以归结为时变参数(time-varying parameter, TVP)系统的仿真优化(simulation optimization, SO)问题。这类问题的特点是一个解的好坏往往需要通过仿真进行评估, 而仿真结果又与TVP有关, 本文称为TVP系统SO问题。如无人作战飞机的轨迹在线优化[1]、无人机集群作战策略在线优化、自动驾驶汽车的实时机动决策等。由于解的实时性要求高, 只要是满意解均可接受, 即不一定要求最优解。以无人机集群自主对抗为例, 决策者希望在输入对抗双方的初始态势信息(包括集群中每个无人机的位置、速度等信息)时, 就能够实时得到拦截方的优化打击方案, 即实现快速协同优化目标分配。在初始态势一定的情况下, 不同的目标分配方案, 显然对应不同的拦截成功率, 而这个拦截效果指标往往需要通过仿真获得, 这是由于整个集群对抗过程涉及到飞行动力学、过载限制等要求, 难以通过解析法进行计算。可将双方初始态势看作是随时间变化的参数, 将分配方案看作问题的最优解, 由于在集群对抗过程中, 双方初始态势瞬息万变, 如何快速优化分配目标, 是一类典型的时变参数的SO问题。

目前, 已有大量文献对SO问题进行了研究[2-4]。传统SO问题的解决思路是: 首先通过仿真模型得到输入变量与输出变量之间的关系, 然后利用优化算法对仿真模型进行寻优, 但是这种方法需要大量访问仿真模型, 导致SO所需时间非常长。一类改进方法是利用各种仿真元模型[5-6]取代仿真模型, 如回归模型[7]、神经网络元模型[8-10]、支持向量机元模型[11-12]、Kriging元模型[13-17]、响应面元模型[5, 18-20]、多元自适应回归样条元模型[21]、径向基函数元模型[22-24]等, 这使得优化算法访问的不是仿真模型, 而是元模型(或代理模型), 能够加快优化算法的运行速度, 得到近似全局最优解[25]。在众多元模型中, 许多学者严格证明了多层人工神经网络理论上能够将任何可测量的函数逼近到任何期望的精确度[26-28], 基于人工神经网络的仿真元建模已经被证明在许多应用场合中是可行的[8-9, 25, 29-30]。但是这种仿真元建模方法主要适用于系统参数固定的情况, 一旦系统参数具有时变性, 则每次参数变化时都需要重复构建仿真元模型, 即仿真元模型是在一组固定参数下训练得到的, 参数变化就需要重新训练得到不同的仿真元模型, 这使得整个SO过程难以满足实时性要求。

近年来, 随着深度学习技术的发展, 神经网络在实时目标识别和分类方面, 展现出独特的优势, 比如手写数字的快速识别、车辆自动驾驶采用的图像自动识别技术、语音识别等。为此, 本文研究了一类具有TVP系统的SO问题快速决策方法, 通过大量的线下训练, 基于神经网络模型描述TVP到最优解的映射关系, 从而实现在线实时决策。

1 问题描述

假设目标函数为y=f(a, x), 其中a表示参数向量, 即一组随时间不断变化的参数(简称TVP), x表示自变量。假设优化目标是在a一定时, 求出使得y取最小值的解xmin。针对TVP系统的SO问题, 函数f的输入输出关系需要通过仿真实现, 这里称为仿真函数。

对于一个n维仿真函数, 时变参数系统的SO模型描述如下:

(1)

式中: at= a(t)=[a1(t), a2(t), ⋯, am(t)], 表示t时刻的TVP向量, 由m个参数组成, 当t一定时, at可看作已知量; [xLBi, xUBi]、[aLBj, aUBj]分别表示自变量xi和参数aj的上下界。

可见, 不同于传统优化问题, 目标函数值y在不同时刻将随着时变参数a的变化表现出完全不同的形式。因此, 每个时刻实际都将对应于求解一个完全不同的优化问题。若模型(1)中的目标函数具有明确的解析表达式, 计算y的时间可忽略不计, 则只要优化算法能够保证实时性, 模型(1)能够直接求解优化模型, 得到最优解。问题的难点在于模型(1)中的目标函数是一个仿真函数, 若利用优化算法对仿真函数进行寻优, 则需要大量访问仿真模型, 导致所需时间非常长, 不能满足实时性要求。

如图 1(a)所示, 对于一个2参数的TVP函数y=a1x2+a2x的最小化问题, 这里的(a1, a2)表示系统参数, 假设y函数是一个黑箱模型, 需通过仿真模型得到。一般而言, 现有的基于神经网络的SO方法[31-32]解决的问题是系统参数一定情况下的最优解, 比如(a1, a2)=(1, 2)时, y=x2+2x。但是该方法实现的前提是需要提前耗费大量的时间获取训练样本, 以离线训练出可以代替仿真函数的神经网络元模型

。一旦系统参数发生变化, 目标函数y也随之

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值