人工智能导论第二章学习笔记

title: 人工智能导论第二章
tags:

  • 人工智能导论

  • 第二章

categories:

  • 人工智能导论


第二章 智能agent

Agent:表示能够行动的某种东西;

2.1Agent和环境

Agent通过传感器感知环境,并通过执行器对所处环境产生影响。

2.2理性Agent

理性A是做正确事情的Agent。

Agent的性能通过性能度量评价好坏。

性能度量:对环境状态的任何给定序列进行评估。

理性Agent定义:对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性Agent应该选择能使其性能度量最大化的行动。

理性是使期望的性能最大化,而完美是使实际的性能最大化。完美对于Agent而言是不太合理的要求。

信息收集是理性的重要部分。

如果一个Agent依赖于设计人员的先验知识而不是它自身的感知信息,这种情况我们会说Agent缺乏自主性。理性Agent应该是自主的–它应该学习,以弥补不完整的或者不正确的先验知识。

很少要求Agent一开始就完全自主,给人工智能的Agent提供一些初始知识以及学习能力是合理的。

与学习相结合使得我们可以设计在很多不同环境下都能成功的理性Agent。

2.3环境的定义

规定的性能度量、环境以及Agent的执行器和传感器,都属于任务环境。称之为PEAS描述。

完全可观察的:如果Agent的传感器在每个时间点上都能获取环境的完整状态,那么我们就说任务环境是完全可观察的。如果传感器能够检测所有与行动决策相关的信息,那么该任务环境是有效完全可观察的。

与之相对的是部分可观察

单Agent与多Agent

单Agent独自运行 eg.字谜游戏

多Agent同时运行 eg.国际象棋,竞争性的多agent环境

多人驾驶:避免发生冲撞使得所有Agent的性能度量最大化,所以它是一个部分合作的多Agent环境。

确定的:如果环境的下一个状态完全取决于当前状态和Agent执行的动作,那么我们就说该环境是确定的;否则,它是随机的

片段式的与延续式的:在片段式的任务环境中,Agent的经历被分成了一个个原子片段。在每个片段中Agent的感知信息并完成单个行动。关键的是,下一个片段不依赖于以前的片段中采取的行动。

在延续式环境中,当前的决策会影响到所有未来的决策。

静态的与动态的:如果环境在Agent计算的时候会变化,那么我们称该Agent的环境是动态的;否则环境是静态的。

动态环境会持续地要求Agent做决策;如果Agent没有做出决策,Agent则认为它决定不作任何事情。

如果环境本身不随时间变化而变化,但是Agent的性能评价随时间变化,我们称这样的决策为半动态的。

离散的与连续的。环境的状态,时间的处理方式以及agent的感知信息和行动都有离散/连续之分。

已知的和未知的

2.4Agent的结构

Agent = 体系结构 + 程序

本书中我们设计的Agent程序都具有相同的框架:输入为从传感器得到的当前感知信息,返回的是执行器的行动抉择。

Agent的表驱动方法:

缺点

Ø表太大

Ø创建表时间长

Ø非自主性,需人工填写

Ø即使能够学习,也需要很长的时间

Agent的类型

Ø简单反射agent

Ø基于模型的反射agent

Ø基于目标的agent

Ø基于效用的agent

简单反射agent

1570863454367

基于模型的agent:

1570863522199

基于目标的agent

除了根据感知信息之外,还要根据目标信息来选择行动

效率比较低,需要推理

搜索和规划算法

1570863592280

基于效用(utility)的agent

当达到目标的行为有很多种的时候,需要考虑效率

环境是部分可观察的和随机的,不确定下的决策过程可以通过基于效用的agent来实现。

效用的作用:

Ø多目标相冲突时,折中方案

Ø多目标在不确定环境中

Ø一个目标有多种行为可以达到时

1570863740202

学习Agent

四个部件:

Ø性能元件:相当于整个agent

Ø评判元件:反映性能元件做得如何

Ø学习元件:负责改进提高

Ø问题产生器:提出一些新的有建设性的探索尝试

1570863807685

总结

  • Agent是可以感知环境并在环境中行动的事物。Agent函数指定Agent响应任何感知序列所采取的行动
  • 性能度量评价Agent在环境中的行为表现。给定Agent感知序列,理性Agent行动追求性能度量预期值最大化。
  • 任务环境的规范包括性能度量、外部环境、执行器和传感器。设计Agent时,第一步总是把任务空间定义得尽可能完全。
  • 任务环境从不同的维度看有很多变化、它们可能是完全或部分可观察的,单Agent或多Agent的,确定的或随机的,片段式的或延续式的,静态的或动态的,离散的或连续的,已知的或未知的。
  • Agent程序是Agent函数的实现。
  • 简单反射Agent直接对感知信息作出反应,基于模型的反射Agent保持内部状态,追踪记录当前感知信息中反映不出来的世界各个方面。基于目标的Agent的行动是为了达到目标,基于效用的Agent试图最大化它期望的“快乐”
  • 所有Agent都可以通过学习来改进它们的性能。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值