人工智能:一种现代方法——复习笔记4

本文探讨了在连续空间中应用局部搜索算法解决建机场等优化问题的方法,包括爬山法、模拟退火、梯度优化和约束优化。还涉及如何处理连续问题的离散化,以及在不确定性和无传感器环境下的搜索策略,如信念状态空间搜索和扩展转移模型的应用。
摘要由CSDN通过智能技术生成

连续空间中的局部搜索

建机场的优化问题

使用已有的局部搜索算法

首选爬山法和模拟退火能够处理连续状态和动作空间。连续空间的分支因子是无限的,最陡爬山、随机爬山、局部束搜索要产生无限个后继,不可行。
遗传算法对状态编码,假设n个01位,最多表示2n个状态,无法表示连续空间的无限多个状态。

将连续问题离散化

处理连续状态空间的一种方法是离散化(discretize)。例如,我们可以将(xi, yi)的位置限制在矩形网格上间距为\delta的固定点,而不是允许它的位置可以为连续二维空间中的任意点。

首选爬山法和模拟退火法不用离散即可使用,随机生成长度为\delta的向量

使用梯度:求解\triangledown f= 0

梯度上升/梯度下降

牛顿-拉弗森法

约束优化(constrained optimization)

如果一个优化问题的解必须满足对变量值的一些硬性约束,那么这个问题就是受约束的。约束优化问题的难度取决于约束和目标函数的性质。

有等式约束、不等式约束、混合约束等

复杂环境的搜索

不确定性的环境(假设环境是完全可观察的)

吸尘器问题引入动作的不确定性

扩展转移模型

Result函数返回的不再是单个状态,而是一组可能的状态

扩展解

与或树


循环解

考虑移动动作的不确定性:移动可能失败(呆在原地)

存在一个循环解(cyclic solution),即反复尝试Right动作,直到它生效。我们可以用一个新的while结构来表示上述过程:

完全不可观察的环境(Agent没有任何传感器)

无传感器的吸尘器

我们称,智能体可以强迫(coerce)世界到达状态7。

无传感器问题的解是一个动作序列,而不是条件规划(因为它没有感知)

搜索信念状态空间

我们将底层物理问题转化为信念状态问题,即对信念状态而非物理状态进行搜索。信念状态空间包含物理状态的每一个可能子集。如果原问题P有N个状态,那么信念状态问题有2^N个信念状态,尽管有很多状态都无法从初始状态到达。

信念状态空间搜索的形式化

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值