人工智能原理课程复习——(1)理性Agent

理性Agent

Agent与环境

Agent的定义

一个智能体可以被认为具有以下特性:

  • 通过其传感器感知其所在的环境
  • 通过执行器在该环境执行相应的动作

如人类Agent,其具有以下特性:

  • 传感器:眼睛,耳朵
  • 执行器:手,脚,嘴巴

如机器人Agent,其具有以下特性:

  • 传感器:相机,红外测距仪
  • 执行器:不同的发动机

Agent程序与Agent函数的定义

Agent程序:指在物理架构上运行,从而产生Agent函数的程序

Agent函数:指一种从历史感知序列到行动的映射

一个智能体在任何瞬间采取的行动都将依赖于到目前为止所有的感知序列。

Agent的例子

吸尘器Agent

该Agent可以感知它的位置,以及当前位置是否具有灰尘。

通过感知,可以采取以下动作:向左,向右,吸尘

我们需要考虑,什么样的Agent是理性的?

我们无法判断上图是否理性,因为我们还没有给出理性的定义。

Agent的理性

理性的定义

通俗上讲,理性指的是:产生好的行为,做正确的事

我们将理性的判断标准归纳为以下几点:

  • 性能度量
  • 环境的先验知识
  • 到目前为止的感知序列
  • 智能体能采取的行动

一个理性的Agent能够根据目前为止的感知和Agent所具有的先验知识,选取能够最大化性能度量的动作

示例:判断给定的Agent是否为理性

对于示例1,我们不能确定该Agent是否为理性的,因为要确定一个Agent是否为理性,需要给定4个要素才能进行判断。

若采取上述假设,则可以判断智能体是理性的

其中第一点提供了性能度量,第二点提供了环境的先验知识,第三点提供了感知序列,第四点提供了智能体所采取的行动

对于实例2而言,该智能体是不理性的。

该假设具有了理性所需要满足的四个性质

但该智能体的性能度量没有得到最大化,因为该智能体只有在前面过程有加分,在后续过程中一直在减分,故没有满足性能度量最大化。

若添加假设:确保所有的地方已经干净了就不做任何事情

那么此时性能度量可以达到最大化,故该智能体是理性的

该智能体是不理性的,因为该智能体在清理完之后就不再采取任何行动。但是环境会随着时间发生变化,因此在后续过程如果继续进行清理才能达到性能度量最大化,故该智能体是不理性的。

因此如果智能体想要变成理性,则需要添加以下条件:

若方格再次被弄脏,该智能体应该不定期地检查并在必要的时候重新清洁

收集信息,学习

理性的Agent需要收集信息(探索环境)和学习

如果不收集信息和学习,那么智能体的水平就不会再提高

在极端情况下,智能体只有初始设定的先验知识

很少要求智能体从一开始就完全自主,当Agent没有或者只有很少的经验时,它的行为往往是随机的,但当得到关于环境的充足经验后,理性Agent才能独立于它的先验知识采取有效地行动。

即可从 初始先验知识,随机行为 变化为 充足的经验,自主的行为

完全理性

完全理性是指Agent是全知全能的,总能思考所有可能的结果,并选择最优方案,其能够使得实际性能最大化。然而,完全理性是不可能的,会受到感性因素的影响。

理性的定义并不要求全知全能,其无法事前知道动作产生的实际结果所以理性的选择只依赖于目前为止的感知序列,其使得期望性能最大化。

PEAS及环境特性

PEAS

如果我们想设计一个针对于特定环境的Agent,需要指出以下四个要素PEAS

  • Performance measure
  • Enviroment
  • Actuators
  • Sensors

举个自动驾驶汽车的例子

环境特性

此处

stochastic指的是:执行当前动作可能有多个状态

episodic指的是:当前决策只取决于当前状态而不取决于先前的动作序列

Static和dynamic指的是在执行动作时,环境是否发生变化

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值