运筹说第64期丨动态规划奠基人——理查德·贝尔曼

最新推荐文章于 2024-07-23 17:36:50 发布

运筹说

最新推荐文章于 2024-07-23 17:36:50 发布

阅读量1.1k

点赞数 3

分类专栏：运筹说运筹学文章标签：动态规划 Richard Bellman 最优决策强化学习自适应动态规划

本文链接：https://blog.csdn.net/YUNCHOUSHUO/article/details/125199250

版权

运筹学同时被 2 个专栏收录

67 篇文章 87 订阅

订阅专栏

运筹说

66 篇文章 51 订阅

订阅专栏

经过之前的学习，相信大家已经对运筹学的动态规划有了一定的了解，接下来小编将带你学习新一章的内容，先来看看动态规划的简单介绍，然后再带你领略该理论先驱的生平故事！

一、动态规划

简介

动态规划（Dynamic Programming，DP）是运筹学的一个分支，是求解决策过程最优化的过程。20世纪50年代初，美国数学家理查德·贝尔曼（英语：Richard Bellman）等人在研究多阶段决策过程的优化问题时，提出了著名的最优化原理，从而创立了动态规划。动态规划的应用极其广泛，包括工程技术、经济、工业生产、军事以及自动化控制等领域，并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了显著的效果。

基本思想

动态规划算法通常用于求解具有某种最优性质的问题。在这类问题中，可能会有许多可行解。每一个解都对应于一个值，我们希望找到具有最优值的解。

动态规划针对的是最优解问题，它的核心是定义合适的状态（满足最优子结构性质和无后效性），找到状态转移方程，由边界条件即可用递推解决。它的子问题往往不独立，可以利用空间换时间来优化。有时候状态转移方程实现起来复杂度高，需要优化。

而提到动态规划，大家经常会将其与分治法混淆，因为两者的基本思想均是将原问题分解成若干个子问题，先求子问题，然后从子问题的解得到原问题的解。但是两者具有很多的不同点，如下所示：

△子问题往往不独立

△自底向上求解

△通常用迭代法求解

○子问题往往相互独立

○自顶向下求解

○通常用递归法求解

发展应用简史

●1956年，C.Pontryagin提出了最优控制的极大值原理。

●1957年，R.Bellman创立了动态规划方法。

●1969&1971年,Merton最早将动态规划方法运用到最优投资与消费问题的求解，以后的许多学者都运用了此方法。

●1973年Johnson等人把动态规划方法和模拟技术结合起来使用,确定联台运用系统的工程规模取得了成功。

●1982年,曾赛星、李寿声采用动态规划方法确定内蒙古河套灌区各种作物的灌水定额及灌水次数。

●1988年黄强把模糊动态规划方法用于求解水电站水库长期优化调度问题，较随机动态规划法简便，计算速度快。

●1989年,曾赛星等采用动态规划方法确定各种作物的灌水定额及灌水次数。

●1991年，林学钛等人运用动态规划方法对白龟山水库进行了优化调度。

目前国内的具体应用领域如下图所示

简单了解过动态规划后，想必各位读者朋友对上文提到的奠基人Bellman先生感到十分好奇。接下来，小编将对这位传奇人物进行详细介绍！

二、Richard Bellman的一生

R. Richard Bellman (1920～1984)

Richard Bellman，美国数学家，美国国家科学院院士，动态规划的创始人。1920年8月26日生于纽约布鲁克林,1984年3月19日卒于圣莫尼卡。主要生平经历如下：

❤1941年在布鲁克林学院毕业，获理学士学位；

❤1943年在威斯康星大学获理学硕士学位；

❤1946年在普林斯顿大学获博士学位；

❤1946～1948年在普林斯顿大学任助理教授；

❤1948～1952年在斯坦福大学任副教授；

❤1953～1956年在美国兰德公司任研究员；

❤1956年后在南加利福尼亚大学任数学教授、电气工程教授和医学教授。

三、所获荣誉与成就

☆奖项

Bellman因提出动态规划而获美国数学会和美国工程数学与应用数学会联合颁发的第一届维纳应用数学奖（1970），卡内基－梅隆大学颁发的第一届迪克森科学奖(1970)，美国管理科学研究会和美国运筹学会联合颁发的冯·诺伊曼理论奖(1976)。他在1979年被授予电气电子工程师协会奖，由于其在“决策过程和控制系统理论方面的贡献，特别是动态规划的发明和应用。”

☆荣誉

1977年Richard Bellman当选为美国艺术与科学研究院院士和美国工程科学院院士。

☆成就

Bellman曾是《数学分析与应用杂志》及《数学生物科学杂志》的主编，《科学与工程中的数学》丛书的主编。已出版30本著作和7本专著，发表了600多篇研究论文。

Richard Bellman因在研究多段决策过程中提出动态规划而闻名于世，可以说动态规划的相关理论研究是他的重要成就。接下来，小编就讲讲贝尔曼和动态规划之间不得不说的故事。

四、Bellman与动态规划的故事

概念引入

在现实生活中，有一类活动的过程，由于它的特殊性，可将过程分成若干个互相联系的阶段，在它的每一阶段都需要作出决策，从而使整个过程达到最好的活动效果。因此各个阶段决策的选取不能任意确定，它依赖于当前面临的状态，又影响以后的发展。当各个阶段决策确定后，就组成一个决策序列，因而也就确定了整个过程的一条活动路线。

Bellman提出的动态规划

把一个问题看作是一个前后关联具有链状结构的多阶段过程就称为多阶段决策过程，这种问题称为多阶段决策问题。在多阶段决策问题中，各个阶段采取的决策，一般来说是与时间有关的，决策依赖于当前状态，又随即引起状态的转移，一个决策序列就是在变化的状态中产生出来的，故有“动态”的含义，称这种解决多阶段决策最优化的过程为动态规划方法。

1957年Richard Bellman的专著《动态规划》出版后，被迅速译成俄文、日文、德文和法文，对控制理论界和数学界有深远影响。Bellman还把不变嵌入原理应用于理论物理和数学分析方面，把两点边值问题化为初值问题，简化了问题的分析和求解过程。1955年后Bellman开始研究算法、计算机仿真和人工智能，把建模与仿真等数学方法应用到工程、经济、社会和医学等方面，取得许多成就。

强化学习发展

正是由于Bellman在1956年提出了动态规划方法，强化学习作为机器学习中的一个重要领域才能够得以顺利发展。强化学习最早可以追溯到巴甫洛夫的条件反射实验，它从动物行为研究和优化控制两个领域独立发展，最终经Richard Bellman之手将其抽象为马尔可夫决策过程(Markov Decision Process，MDP)。因此Bellman不仅仅是动态规划的创始人，也是强化学习的奠基者。

五、其他动态规划学者

Paul J. Werbos