Differential games in economics and management science学习笔记(二)

Control theoretic methods

3.1 A simple optimal control problem

在这里插入图片描述

3.2 The Hamilton-Jacobi-Bellman equation

最优性充分条件(sufficient optimality conditions):满足某些条件,推导出其为最优点。

HJB方程:

We now present an intuitive argument for the fact that the optimal value function V satisfies the partial differential equation

在这里插入图片描述
, which is called the Hamilton-Jacobi-Bellman equation.

在这里插入图片描述

3.3 Pontryagin’s maximum principle

必要优化条件(necessary optimality condition):在函数g的局部最大值处,函数的梯度向量为0。

It is a first order condition for smooth problems, comparable to the
condition that the gradient vector of a function g : Rn—>R must vanish
at a local maximum of g.

但在局部极小值和其他临界点出,函数的梯度向量也为0

因此只有我们对g的整体曲率性质有额外的信息(如g的凹性),我们才能从g’(x)=0的条件中推断出x确实是一个最大值。

Only if we have some additional information on the global curvature
properties of g (like concavity of g) can we infer from the condition
g(x) = 0 that x is indeed a maximum.

###########################################################################################################

充分优化条件:增广最大值原则(augmented maximum principle)

哈密顿函数、协态变量/伴随变量、最大哈密顿函数:
在这里插入图片描述

最大值条件:
在这里插入图片描述

伴随方程:(两个都是,后面的用起来更方便)
在这里插入图片描述

横截条件:

在这里插入图片描述
充分性定理:
在这里插入图片描述

上述定义中λ=Vx,即λ等于值函数V对x的一阶导。因此 (啥玩意,没看懂)

λ measures the marginal utility of the state at time t along the optimal trajectory. In other words, λ (t) is the highest hypothetical price which a rational decision maker would be willing to pay for an additional, infinitesimally small unit of the state variable at time t. Because of this, the adjoint variable is often called the shadow price of x.

根据状态变量X初始变量X(0)的不同,横截条件λ(0)会有所变化
目标函数若包含依赖X(0)的额外项,横截条件也会有所变化
在这里插入图片描述
在这里插入图片描述

3.2定理的另外一种写法:
在这里插入图片描述
在这里插入图片描述

3.4 How to solve an optomal control problem

有3种方法可以解任何优化问题:
第一种 重构问题使最优解明确 (只适用于非常简单的问题,需要对解的形式有很好的直觉)
第二种 利用必要最优性条件(necessary optimality conditions)(必须与最优解存在性定理结合适用)
第三种 利用充分最优性条件(sufficient optimality conditions)
(第四种 先用第二种再用第三种)

0.0 讲了一个例子 云里雾里

3.5 Information, commitment, and strategies

  1. 只需提供时间 u(t)=φ(t),open-loop stategy
  2. 提供时间和当前状态 u(t)=φ(x(t),t), Markovian strategy, a closed-loop strategy, or a feedback strategy.
    二者需要知道的信息量不同
    开环决策可以看成是马尔科夫决策的一种退化,即φ与x无关。
    不是开环决策的马尔科夫决策称为非退化马尔科夫决策。

3.6 Infinite time horizon

无界时域最优化问题目标函数积分应该收敛,但这是一个很强的假设。
当积分不收敛时,无界时域问题最优性的几个定义
在这里插入图片描述
在这里插入图片描述
(强度越来越弱)

充分性定理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 15
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值