任何时候的 rational 取决于 4 件事:
• 定义成功的关键因素的 performance measure。
• agent 对于环境的预先了解。
• agent 可以执行的行动。
• agent 到目前为止的感知序列。
定义一个 rational agent:
对于每个可能感知序列,根据感知序列提供的证据以及agent 已知的信息,rational agent 应当选择可以最大化 performance measure 的行动。
注意区分 rationality 和 omniscience,一个“无所不知”的 agent 知道它的行动的实际后果,并相应地做出行动,但实际上“无所不知”在现实中是不可能的。
比如:我正准备过街去见一个朋友,几百米内都没有车,但当我过街时,一个飞机舱门从天而降,我还没来得及躲开的时候已经变成肉饼了,我过街的行为不合理吗?而我的墓碑上可能写着:“尝试过街的白痴”。
这说明 “rational” 与“完美”是不同的,”rational” 最大化期待的结果,而“完美“最大化实际的结果。
我们对”rational” 的定义不需要无所不知,因为”rational” 依赖于目前为止的感知序列。
为了修正之后的感知而做出的行动叫做 information gathering,比如过做出马路的 action 之前要先查看路况。
rational agent 不仅需要 information gathering,还需要尽可能地从感知中 learn 经验,以便修正其未来的感知。
依赖于之前的知识,而不是它的感知的 agent,我们称之缺少 autonomy,rational agent 应当是有自主能力的,通过学习来补偿不正确的之前的知识。比如扫地机器人应当在学习后能够预知哪里可能会是脏的,针对性地做出行动,而在没有经验之前,它的行为就是随机的,当学习了足够的经验后,agent 的行为就会变得有效,且不依赖于之前的知识。所以,具有学习能力的 agent 才能够应付复杂的场景。