人工智能原理课程复习——(6)复杂环境搜索

复杂环境搜索

不确定性的环境

此处的不确定性指的是动作结果的不确定性,此处假设环境是完全可观察的

即Agent做一个动作,可能会导致多个结果出现

因此对应于转移模型就会有多个状态,如下图中执行suck这个动作,可能会得到5这个状态也可能得到7这个状态

因此现在的解不再是动作序列,而是一个条件规划

因为我此刻不知道我现在是属于什么状态,所以我必须加上条件,来确定我在哪个状态,从而执行相应的动作,这就意味着解是以”树“的形式出现

下面介绍一下与或树的概念

与或树:即将所有可能的预测和更新进行组合,其中方块代表或结点,圆块代表与结点

我们在或结点上选择动作,我们每选择一个动作都会得到对应的状态,这样的状态可能有多个,我们需要为这里所有可能得到的状态继续找到它们所对应的规划

综上

在或结点上确定一个动作,只要有一个动作导致成功,就有解,解的形式就是一棵子树

在与结点上为所有状态找到规划,只要有一个状态失败,整体就失败

下面我们在给出循环解的定义,即当前动作可能失效,呆在原地

对于一个与或图搜索而言,若返回失败,并不一定代表该问题无解

可能是因为该问题出现了循环解

完全不可观察的环境

完全不可观察指的是Agent没有任何传感器,即得不到任何感知信息,无法判断Agent自身的状态

但无传感器的问题一定无解吗?

答案是:可能有解

下面我们考虑一个无传感器的吸尘器,但假设动作确定

由于我们无法搜索物理状态空间(因为我们无法感知当前的状态),因此我们转而去搜索信念状态空间

下面我们来定义一下什么信念状态空间

通过上图定义可以看出

信念状态空间:是由多个集合构成的空间

每个集合就是一个信念状态,每个信念状态又包含多个物理状态

即整个搜索算法就是在由物理状态构成的集合之间进行搜索

此处的初始信念状态指的是:所有可能的物理状态

部分可观察的环境

我们还是以吸尘器为例

此处的部分可观察就是,吸尘器能够感知Agent当前位置以及当前位置是否有垃圾,它无法感知其它方格中的垃圾

以上图为例详细进行展开

  1. 初始信念状态为b={1,3}
  2. 执行right动作
  3. 得到预测信念状态为b'={2,4}
  4. Agent进行感知,得到感知预测为{B,Dirty}
  5. 对于预测信念状态b'而言,只有2满足感知预测
  6. 更新:即2是确定得到的信念状态

下面再举一个例子,可以看出来部分可观察的或结点为信念状态,而之前的与或树为物理状态

未知环境与联机搜索

脱机搜索:因为我们知道动作转移模型,因此可以事先规划好行动的结点,计算出完整的方案

但若动作转移模型未知,我们没办法事先规划,只能做一步看一步,即计算与执行交替执行

此处的计算:指的是判断该执行什么样的动作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值