读书笔记:Algorithms for Decision Making(1)

读书笔记:Algorithms for Decision Making

下一篇:读书笔记:Algorithms for Decision Making(2)



前言

看到了木遥老师的推荐,下载but没有打开。简介就引用木遥老师原文了,谢谢老师!
在这里插入图片描述
我自己的粗浅看法:机器学习要不是拟合逼近(经常提及的machine learning),要不就是决策过程(reinforcement learning),这本书主要讲述后者的前世今生。


一、引言

"In retrospect it is interesting to note that the original problem that started my research is still outstanding—namely the problem of planning or scheduling dynamically over time, particularly planning dynamically under uncertainty. If such a problem could be successfully solved it could (eventually through better planning) contribute to the well-being and stability of the world. "
                                                                  —— G. B. Dantzig

许多重要问题涉及不确定性下的决策,包括飞机防撞、野火管理和灾害应对。在设计决策系统时,不仅要平衡多个目标的同时,还需考虑各种不确定性来源。

1. 决策过程

下图是一个经典的决策过程示意图,本质上就是智能体(agent)与环境(environment)的一个交互过程,在该过程中主要存在以下不确定:

  • 输出结果不确定,即行动结果不确定;
  • 模型不确定,即问题模型不确定;
  • 状态不确定,即环境正确状态的不确定;
  • 交互不确定,即在环境中交互的其他智能体的不确定。
    人工智能的核心就是在这些不确定下做出合理的决策。

在这里插入图片描述
常用方法可概括如下:

  1. Explicit Programming:该方法适用于解决某个简单的问题,“粗暴直接”。
  2. 监督学习:该方法广泛应用于分类问题,适用于同场景的经验式决策。
  3. 优化方法:如果空间相对小,且性能度量没有很多局部最优,则局部或全局搜索方法是合适的。
  4. 规划(planning):使用动态模型来指导搜索的优化形式,集中于确定性问题且可推广到高维。
  5. 强化学习:强化学习中出现的一个有趣的复杂性是,行动的选择不仅影响代理在实现其目标方面的即时成功,而且影响代理了解环境和识别其可以利用的问题特征的能力。

2. 概述

这本书分为五个部分。

  1. 概率推理(Probabilistic Reasoning )
    这部分讨论了在单一时间点的简单决策中关于不确定性和目标的推理问题。首先,讨论了如何将不确定性表示为概率分布,即如何将现实问题构建为概率模型,如何使用模型进行推理,以及如何从数据中学习模型的参数和结构。然后,介绍了效用原理 (utility theory的基础,并通过最大期望效用原理说明如何形成不确定性下理性决策的基础。最后,讨论了如何将效用理论的概念纳入上述概率图形模型中,以形成决策网络

  2. 序列问题(Sequential Problems)
    这部分将决策扩展到序列问题,此时行动结果是不确定的。具体讲,这部分重点讨论在模型已知且环境完全可观察的假设下的序列决策问题。首先,引入了马尔可夫决策过程(Markov decision process,MDP)。然后,讨论了找到该类问题精确解的几种方法。具体而言,讨论了离线和在线近似解方法的集合,以及一种涉及直接搜索参数化决策策略空间的方法。最后,验证了决策策略在现实世界中部署时会按预期执行。

  3. 模型不确定性(Model Uncertainty)
    该部分解决了模型不确定性,即不从已知模型开始,学习如何通过与环境的交互来采取行动。通过观察智能体行为的结果(以状态转换和奖励的形式),智能体将选择最大化其长期累积奖励的行为。解决这些存在模型不确定性的问题是强化学习领域的主题,也是本书这一部分的重点。具体讨论了解决模型不确定性的几个挑战的理论及一些关键算法。首先,智能体必须谨慎地平衡环境探索和通过经验获得的知识开发。其次,奖励可能在做出重要决策后很久才收到,因此,必须将后续奖励的信用分配给早期决策。最后,智能体必须根据有限的经验进行归纳。

  4. 状态不确定性( State Uncertainty)
    在本部分中,不完美的感知信息阻止了了解完整的环境状态的可能性,即没有准确地观察到状态,而是接收到与状态有概率关系的观察。该问题可以建模为部分可观察马尔可夫决策过程(partially observable Markov decision process,POMDP)

  5. 多智能体系统(Multiagent Systems)
    本部分将前四部分扩展到多个代理,讨论了交互不确定性带来的挑战。我们首先讨论简单的博弈,其中一组代理同时选择一个动作。结果是基于联合行动对每个代理的单独奖励。

    • 马尔可夫博弈(Markov game,MG)表示简单博弈对多个状态和MDP对的推广。
    • 部分可观测马尔可夫博弈(POMG)引入了状态不确定性,进一步推广了MG和POMDP,因为代理现在只接收有噪声的局部观测。
    • 分散部分可观察马尔可夫决策过程(Dec-POMDP)将POMG集中在一个协作的多智能体团队中,其中智能体之间共享奖励。

总结

这部分介绍了决策过程的基本背景和接下来各部分的基本内容。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值