人工智能导论第二章学习笔记

最新推荐文章于 2024-04-26 00:18:40 发布

Tz&云端

最新推荐文章于 2024-04-26 00:18:40 发布

阅读量1.3k

点赞数 1

分类专栏：人工智能导论文章标签：人工智能导论

本文链接：https://blog.csdn.net/qq_41175610/article/details/102553537

版权

人工智能导论专栏收录该内容

1 篇文章 0 订阅

订阅专栏

title: 人工智能导论第二章
tags:

人工智能导论
第二章

categories:

人工智能导论

第二章智能agent

Agent：表示能够行动的某种东西；

2.1Agent和环境

Agent通过传感器感知环境，并通过执行器对所处环境产生影响。

2.2理性Agent

理性A是做正确事情的Agent。

Agent的性能通过性能度量评价好坏。

性能度量：对环境状态的任何给定序列进行评估。

理性Agent定义：对每一个可能的感知序列，根据已知的感知序列提供的证据和Agent具有的先验知识，理性Agent应该选择能使其性能度量最大化的行动。

理性是使期望的性能最大化，而完美是使实际的性能最大化。完美对于Agent而言是不太合理的要求。

信息收集是理性的重要部分。

如果一个Agent依赖于设计人员的先验知识而不是它自身的感知信息，这种情况我们会说Agent缺乏自主性。理性Agent应该是自主的–它应该学习，以弥补不完整的或者不正确的先验知识。

很少要求Agent一开始就完全自主，给人工智能的Agent提供一些初始知识以及学习能力是合理的。

与学习相结合使得我们可以设计在很多不同环境下都能成功的理性Agent。

2.3环境的定义

规定的性能度量、环境以及Agent的执行器和传感器，都属于任务环境。称之为PEAS描述。

完全可观察的：如果Agent的传感器在每个时间点上都能获取环境的完整状态，那么我们就说任务环境是完全可观察的。如果传感器能够检测所有与行动决策相关的信息，那么该任务环境是有效完全可观察的。

与之相对的是部分可观察。

单Agent与多Agent

单Agent独自运行 eg.字谜游戏

多Agent同时运行 eg.国际象棋，竞争性的多agent环境

多人驾驶：避免发生冲撞使得所有Agent的性能度量最大化，所以它是一个部分合作的多Agent环境。

确定的：如果环境的下一个状态完全取决于当前状态和Agent执行的动作，那么我们就说该环境是确定的；否则，它是随机的。

片段式的与延续式的：在片段式的任务环境中，Agent的经历被分成了一个个原子片段。在每个片段中Agent的感知信息并完成单个行动。关键的是，下一个片段不依赖于以前的片段中采取的行动。

在延续式环境中，当前的决策会影响到所有未来的决策。

静态的与动态的：如果环境在Agent计算的时候会变化，那么我们称该Agent的环境是动态的；否则环境是静态的。

动态环境会持续地要求Agent做决策；如果Agent没有做出决策，Agent则认为它决定不作任何事情。

如果环境本身不随时间变化而变化，但是Agent的性能评价随时间变化，我们称这样的决策为半动态的。

离散的与连续的。环境的状态，时间的处理方式以及agent的感知信息和行动都有离散/连续之分。

已知的和未知的。

2.4Agent的结构

Agent = 体系结构 + 程序

本书中我们设计的Agent程序都具有相同的框架：输入为从传感器得到的当前感知信息，返回的是执行器的行动抉择。

Agent的表驱动方法：

缺点：

Ø表太大

Ø创建表时间长

Ø非自主性，需人工填写

Ø即使能够学习，也需要很长的时间

Agent的类型：

Ø简单反射agent

Ø基于模型的反射agent

Ø基于目标的agent

Ø基于效用的agent

简单反射agent：

基于模型的agent：

基于目标的agent

除了根据感知信息之外，还要根据目标信息来选择行动

效率比较低，需要推理

搜索和规划算法

基于效用（utility）的agent：

当达到目标的行为有很多种的时候，需要考虑效率

环境是部分可观察的和随机的，不确定下的决策过程可以通过基于效用的agent来实现。

效用的作用：

Ø多目标相冲突时，折中方案

Ø多目标在不确定环境中

Ø一个目标有多种行为可以达到时

学习Agent

四个部件：

Ø性能元件：相当于整个agent

Ø评判元件：反映性能元件做得如何

Ø学习元件：负责改进提高

Ø问题产生器：提出一些新的有建设性的探索尝试

总结

Agent是可以感知环境并在环境中行动的事物。Agent函数指定Agent响应任何感知序列所采取的行动
性能度量评价Agent在环境中的行为表现。给定Agent感知序列，理性Agent行动追求性能度量预期值最大化。
任务环境的规范包括性能度量、外部环境、执行器和传感器。设计Agent时，第一步总是把任务空间定义得尽可能完全。
任务环境从不同的维度看有很多变化、它们可能是完全或部分可观察的，单Agent或多Agent的，确定的或随机的，片段式的或延续式的，静态的或动态的，离散的或连续的，已知的或未知的。
Agent程序是Agent函数的实现。
简单反射Agent直接对感知信息作出反应，基于模型的反射Agent保持内部状态，追踪记录当前感知信息中反映不出来的世界各个方面。基于目标的Agent的行动是为了达到目标，基于效用的Agent试图最大化它期望的“快乐”
所有Agent都可以通过学习来改进它们的性能。

Tz&云端

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
人工智能导论第二章学习笔记

title: 人工智能导论第二章tags:人工智能导论第二章categories:人工智能导论第二章智能agentAgent：表示能够行动的某种东西；2.1Agent和环境Agent通过传感器感知环境，并通过执行器对所处环境产生影响。2.2理性Agent理性A是做正确事情的Agent。Agent的性能通过性能度量评价好坏。性能度量：对环境状态的任何...
复制链接

扫一扫