Rationality

任何时候的 rational 取决于 4 件事:
• 定义成功的关键因素的 performance measure。
• agent 对于环境的预先了解。
• agent 可以执行的行动。
• agent 到目前为止的感知序列。

定义一个 rational agent:
对于每个可能感知序列,根据感知序列提供的证据以及agent 已知的信息,rational agent 应当选择可以最大化 performance measure 的行动。

注意区分 rationality 和 omniscience,一个“无所不知”的 agent 知道它的行动的实际后果,并相应地做出行动,但实际上“无所不知”在现实中是不可能的。
比如:我正准备过街去见一个朋友,几百米内都没有车,但当我过街时,一个飞机舱门从天而降,我还没来得及躲开的时候已经变成肉饼了,我过街的行为不合理吗?而我的墓碑上可能写着:“尝试过街的白痴”。

这说明 “rational” 与“完美”是不同的,”rational” 最大化期待的结果,而“完美“最大化实际的结果。
我们对”rational” 的定义不需要无所不知,因为”rational” 依赖于目前为止的感知序列。

为了修正之后的感知而做出的行动叫做 information gathering,比如过做出马路的 action 之前要先查看路况。
rational agent 不仅需要 information gathering,还需要尽可能地从感知中 learn 经验,以便修正其未来的感知。
依赖于之前的知识,而不是它的感知的 agent,我们称之缺少 autonomy,rational agent 应当是有自主能力的,通过学习来补偿不正确的之前的知识。比如扫地机器人应当在学习后能够预知哪里可能会是脏的,针对性地做出行动,而在没有经验之前,它的行为就是随机的,当学习了足够的经验后,agent 的行为就会变得有效,且不依赖于之前的知识。所以,具有学习能力的 agent 才能够应付复杂的场景。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值