目录
一、Agent
Agent和环境
任务环境的规范描述:
PEAS(Performance(性能),Environment(环境),Actuators(执行器),Sensors(传感器))
理性Agent
理性的Agent就是做事正确的Agent,对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性的Agent应该选择能使其性能度量最大化的行动环境的性质
理性不等同于全知(已知的知识都是有限的)
理性不等于完美:因为同样的Agent在不同的环境下就会变成非理性的
理性是使期望的性能最大化
完美是使实际的性能最大化
Agent的类型和结构
四种基本的类型
①简单反射agent 基于当前的感知选择行动,不关注感知历史
②基于模型的反射agent
Agent根据感知历史维持内部状态,Agent随时更新内部状态信息
③基于目标的agent
除了根据感知信息之外,还要根据目标信息来选择行动
效率比较低,需要推理
搜索和规划算法
④基于效用的agent
当达到目标的行为有很多种的时候,需要考虑效率
环境是部分可观察的和随机的,不确定下的决策过程可以通过基于效用的agent来实现。
效用的作用
多目标相冲突时
多目标在不确定环境中
一个目标有多种行为可以达到时
⑤学习agent
- 4个组件
- 性能元件:相当于整个agent
- 评判元件:反映性能元件做得如何
- 学习元件:负责改进提高
- 问题产生器:提出一些新的有建设性的探索尝试
Agent:在IT领域,Agent指能自主活动的软件或硬件实体。
传感器:Agent通过传感器感知环境并通过执行器对所处环境产生影响。以人类Agent为例,眼睛、耳朵等为传感器,手、腿、声道等为执行器。软件Agent接受键盘敲击、文件内容和网络数据包作为传感器输入,并以屏幕显示、写文件和发送网络数据包为执行器来作用于环境。
环境:
完全可观察的和部分可观察的:如果Agent的传感器在每个时间点上都能获取环境的完整信息,那么说任务环境是完全可观察的。(完全可观察的环境下Agent不需要维护任何内部状态来记录外部世界)
单Agent与多Agent:
确定的与随机的:
如果环境的下一个状态完全取决于当前状态和Agent执行的动作,那么说环境是确定的,否则是随机的。
片段式的与连续的:
当前决策是否影响到未来的决策?
静态的与动态的:
性能评价随时间流逝改变?
离散的与连续的:
观察对象/行动是连续的空间变化?
已知的与未知的:
二、搜索策略
状态空间的描述
初始状态、行动、转移模型、目标测试、路径耗散/消耗
例如罗马尼亚问题:
性能评价标准
- 完备性:如果问题存在解,算法即可找到解
- 最优性:能找到最优解
- 时间复杂度:花费的时间
- 空间复杂度:花费的内存
时间空间复杂度的度量:
- 时间由搜索过程中产生的结点数目来度量
- 空间由内存中存储的最多结点数量来度量
- 通常小于状态空间数量|V|+|E|
无信息搜索
宽度优先搜索:在扩展下一层的任何结点之前,先将本层结点全部扩展(直到找到一个解)。
一致代价搜索:在BFS基础上,优先扩展路径消耗g(n)最小的结点。
一致代价搜索并不是搜索到目标结点就马上结束,而是直到队列为空,且BFS是在扩展结点时检测,一致代价搜索是在结点被选择扩展时检测。
深度优先搜索: