人工智能入门(三)(研究途径、理性智能体、任务环境、智能体结构和类别)

研究途径

  • 控制论和大脑仿真
    探索神经学、信息论和控制论的关系——召开目的论学会会议——该途径被抛弃——对形式化做出尝试——采用心理学实验结果并开发程序——80年代中期出现认知架构软件Soar。
  • 符号与亚符号
    符号AI是基于人类易懂的高级“符号”来表现问题、逻辑和搜索。该方式基于这样的假设:智能的许多方面能够通过符号操作来获得。
    最成功的形式是专家系统,它对规则进行操作来推断和确定所需的附加信息,即采用人类易懂的符号询问问题。
    80年代,认为符号系统永远无法模仿人类认知的全部过程,开始关注“亚符号”方式,它以神经网络、统计学和数值优化等为基础。
  • 基于逻辑和反逻辑
    麦卡锡认为机器无需仿真人类的思考,反倒应该试图去发现抽象推理和问题求解的本质,不管人们是否使用相同的算法。他专注于使用形式逻辑来解决各种问题,包括知识表征、规划和学习。
    而MIT研究者认为,解决视觉和自然语言处理的难题需要特别的解决方法,主张没有简单和通用的准则能够涵盖AI的所有方面。
    反逻辑方式属于“不整齐”,与“整齐”范式形成对照。常识知识库就是“不整齐”AI范例,因为它必须用手工构建,每次一个复杂的概念。
    70年代,开始在AI应用中构建知识,其导致专家系统(expert systems)的开发和部署,是第一个真正成功的AI软件形式。
  • 符号主义和连接主义
    符号主义AI凭借符号及其间关系来表征信息,有特定的算法用于处理这些符号来解决问题和推导新知识。
    连接主义AI用网络内部的一种分布式形式来表征信息,可以模仿生物学过程的基础学习、任务功效和问题求解。
  • 统计方法
    90年代,开发了复杂数学工具来解决特定问题,统计方法被描述为“整齐观点的胜利”。批评者认为这种技巧过于关注特定问题,并未解决通用智能的长期目标。
  • 智能体(Intelligent Agent)范式
    Agent只作为具有动作能力的sth,并期待其能够完成:自主操作、感知环境、持续动作、顺应变化和实现目标等。
    理性Agent(智能体)指具有最佳结果,或存在不确定性时最佳预期结果。它具有感受器感知外部环境,并通过执行器作用于外部环境,还可以通过学习或应用知识来实现目标。

理性智能体

  • Rational Agent较之“人性思考/动作”更通用,因为正确推理只是为了获得理性的可能机制之一,也更加顺应科技的发展。
  • 智能体有时被大致描述为类似于计算机程序的抽象功能系统,它们被称为抽象智能体,将其与现实世界的计算机系统、生物系统或组织结构区分开来。
    某些智能体的定义强调自主性,因此用自主智能体来表示。
    其他人仍然将目标导向行为作为智能的本质,因而使用从经济学借用的术语——理性智能体。
  • 通常认为智能体应具有以下特征:
    逐渐顺应新的问题的求解规则;
    适合在线与实时;
    能够从行为、错误与成功方面进行自我分析;
    通过与环境交互进行学习与改善;
    迅速从大量的数据中学习;
    具有基于内存的样本存储和检索能力;
    具有表示短期和长期记忆、遗忘等参数。
  • 理性智能体是指能做正确行为的智能体,该功能表中的每个条目都正确填写。
    正确行为(Right Thing)需要通过智能体行为后果进行判断:一个智能体在一个环境中通过感知生成一系列动作,这些动作经由一系列状态而引起环境发生变化,如果该变化是所期望的,则该智能体表现良好。
  • 因而,正确事物指的是理性动作,即对给定的感知序列,能使期待的性能指标最大。理性指的探索、学习和自主,意味着最优最佳,而非全知全能。
  • 理性依赖于四点:
    定义成功标准的性能指标;
    智能体对环境的先验知识;
    智能体能完成的动作;
    智能体最新的感知序列;

任务环境

  • PEAS是一种任务环境的规范,代表了performance(性能)、environment(环境)、actuators(动作器)、sensors(感受器)。
  • 为了构建理性智能体这种“解决方式”,必须考虑任务环境这种“问题”。
    例如,对于卫星图像分析系统这一智能体,其performance即正确的图像归类,enviroment即轨道卫星的下行信道,actuators即场景归类的显示,sensors即颜色像素阵列。
  • 环境类型
    完全可观测和部分可观测:若一个智能体的传感器在每个时间点上可访问环境的完整状态,则该任务环境是完全可观测的。
    单智能体和多智能体:若一个智能体在一个环境内自运行,则其是一个单智能体。
    确定性与随机性:若环境的下一个状态完全由当前的状态和由该智能体执行的动作所决定,则该环境是确定的。
    阵发性和连续性:智能体的动作过程被分为原子的片段,并且每个片段的动作选择仅仅依赖于片段本身,则其是阵发的。
    动态和静态:若环境随智能体的行为而改变,则该智能体的环境是动态的,否则是静态的;若环境本身不随时间推移而改变,但该智能体的性能发生变化,则为半动态。
    离散型和连续型:区别在于环境的状态、时间处理的方式、感知和智能体的动作。
    已知和未知:在一个已知的环境下,所有动作的结果是给定的。

智能体结构

  • 一个智能体的行为可以数学上被描述为一个智能体函数,将每个感知映射为动作。
    智能体函数是一个抽象的概念,它可以包含将各种决策制定的原则。如单个选项的效用计算、贯穿逻辑规则的推论、模糊逻辑、查找表等都属于智能体函数。
  • 一个智能体程序实现一个智能体函数,它将感受器的输入作为当前的感知,然后返回一个动作给执行器,智能体程序包含智能体函数。
  • 智能体结构
    agent=platform+agent program
    plarform=computing device+sensors+actuators
    agent program包含agent function
    智能体通常表现为包含许多子智能体的分层结构,这些子智能体处理和执行较低级功能,两者共同构建一个完整的系统,通过行为和反应完成任务。
  • 智能体内部状态有三种表现方式:
    原子方式:每个状态是黑盒子,没有内部结构。如寻找驾驶路径问题,只关心驾驶路径,不关心地点内部结构,则每个地点都用原子表示。
    因子方式:每个状态由一组固定的属性和值组成。如国家地图,可以用几种不同的颜色将各省份或州市区别开来。
    结构方式:每个状态包含对象,每个对象具有属性和与其他对象的关系。

智能体类别

  • 对智能体的分类基于其感知的智能和能力的程度:
    简单反射智能体
    基于模型的反射智能体
    基于目标的智能体
    基于效用的智能体
    学习智能体
    其他智能体
  • 简单反射智能体
    该智能体仅仅在当前感知的基础上动作,忽略其余的感知历史。其函数是基于条件动作规则,即if条件then动作。
    仅当外部环境为完全可观测时,该智能体的功能才能发挥。
    其算法可划分为:state(状态)-rule(规则)-action(动作),状态表示对当前外部环境的理解,从而触发相应规则最终完成动作。
  • 基于模型的反射智能体
    该智能体可以处理部分可观测环境,其当前状态存储在智能体中,维护某种结构,描述不可见外部环境的一部分。
    关于“外部环境如何运作”的知识被称为一个外部环境模型,因而得名“基于模型的智能体”。
    其保持某种依赖于感知历史的内部模型,至少反射某些当前状态无法观测的方面。
    其算法在state中添加了model参数,采用一个内部模型来保持当前外部环境状态的轨迹,然后用等同于简单反射智能体的方式选择动作。
  • 基于目标的智能体
    该智能体通过利用“目标”信息,进一步扩展了基于模型的智能体功能。
    目标信息描述所希望的情形,它允许智能体在多个可能性之间选择一种方式,挑选出达到目标状态的那一个。
    搜索和规划是人工智能的子领域,致力于发现达到智能体目标的动作序列。
    在某些情况下,该智能体不太有效,但其更为灵活,因为这种支持其决策的知识明显地显示出来,并且可以修改。
  • 基于效用的智能体
    在上文智能体的基础上进行扩展,一个特殊的状态可通过一个效用函数得到,该函数将一个状态映射到一个该状态效用的度量。
    该智能体是一种更通用的性能度量,一个理性的基于效用的智能体选择动作,是期待效应的最大化,根据这种程度,允许对不同的外部环境状态进行比较。
    该智能体需要建模并记录环境、任务的轨迹,这涉及大量的感知、表征、推理和学习的研究。
  • 学习智能体
    该智能体允许智能体最初在未知的环境中运行,并且与其最初的知识相比,从而逐渐提高性能。
    学习要素:利用评论者对智能体如何动作的反馈,然后决定应该如何修改性能要素以便未来做得更好。
    性能要素:它是曾经被考虑过的问题,完整的智能体获得感知并且决定动作。
    问题发生器:对推荐的动作负责,这将形成新的经验。
  • 其他智能体
    决策智能体:与决策制定相关。
    输入智能体:处理和理解感受器的输入。
    加工智能体:解决诸如语音识别的问题。
    空间智能体:与物理现实世界相关联。
    时间智能体:可以使用基于时间的信息来提供指令给计算机程序,然后接收程序输入感知来调整下一步行为。
    世界智能体:并入所有其他智能体的组合以便允许自主行为。
    可信智能体:通过利用交互的人工特性展示个性。
  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
智能强化学习可以在离散环境和连续环境中进行。离散环境指的是智能的动作空间是离散的,即只能选择有限个动作中的一个进行行动。在离散环境中,智能通常采用分类问题的方法来选择动作,例如使用Q-learning算法或者深度强化学习中的DQN算法。离散环境在一些棋类游戏或者格子世界等问题中经常被使用。 连续环境指的是智能的动作空间是连续的,即可以选择任意的动作值进行行动。在连续环境中,智能通常采用函数优化的方法来选择动作,例如使用深度强化学习中的DDPG算法或者PPO算法。连续环境在一些控制问题中经常被使用,例如机器人控制或者自动驾驶等领域。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [基于Python进行强化学习实验(人工智能实验)【100011561】](https://download.csdn.net/download/s1t16/87649721)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [多智能强化学习(MARL)训练环境总结](https://blog.csdn.net/weixin_45526117/article/details/129718426)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值