深度强化学习的挑战(多智能体强化学习)

样本效率

强化学习中一个样本高效或称数据高效的算法意味着这个算法可以更好地利用收集到的样本,从而实现更快速的策略学习。
**从专家示范中学习。**这个想法需要一个专家来提供有高奖励值的训练样本,实际上属于模仿学习的范畴。
**基于模型的强化学习。**一个基于模型的强化学习方法一般指智能体不仅学会一个预测其动作的策略,而且学习一个环境的模型来辅助其动作规划,因此可以加速策略学习的速度。环境模型包括两个子模型:一个是状态转移模型,一个是奖励模型。

学习稳定性

深度强化学习可能非常不稳定或有随机性。这里的不稳定指在多次训练过程中,每此学习表现在随时间变化的横向比较中的差异。
深度神经网络的不稳定性和不可预测性在深度强化学习领域被进一步加剧,移动的目标分布、数据不满足独立同分布条件,对价值函数的不稳定的有偏差估计等因素导致了梯度估计器重的噪声,进一步造成不稳定的学习表现。

灾难性遗忘

由于强化学习通常有动态的学习过程而非像监督学习一样在固定的数据集上学习,它可以被看作是追逐一个移动目标的过程,而数据集在整个过程被不断更新。(每次使用的都是新的数据)

探索

探索是强化学习中的另一个主要的挑战,它会显著影响学习率。
强化学习的过程是基于试错。

元学习和表征学习

元学习:元学习也称学会学习,是让智能体根据以往经验在新任务上更快学习的方法,而非每个任务作为一个单独的任务。通常一个普通的学习者学习一个具体任务的过程被看作是元学习中的内循环学习过程,而元学习者可以通过一个外循环学习过程来更新内循环学习者。

表征学习起初在机器学习中提出,被定义为从原始数据中学习表示方式和提取有效信息或特征来便于分类器或预测器使用。表征学习试图学习抽象且简洁的特征来表示原始材料,并且通过这种抽象,预测器或分类器不会降低它们的表现,而有更高的学习效率。
表征学习通常可以用于强化学习中复杂状态的简单表示,这被称为表征状态学习。

多智能体强化学习

MARL是一个有希望且值得探索的方向,提供了一种能够研究非常规强化学习的方式,包括群体智能、智能环境的动态变化、智能体本身的创新等。
智能体的智能上限可能受到其所在环境的限制。因此,创新的产生成为人工智能中一个比较热门的话题。

模拟到现实和大规模强化学习

多智能体强化学习

分析了在多种场景下智能体之间合作与竞争的关系,以及一般性的博弈架构如何用于建模多智能体多种类型的交互场景。通过对博弈加工偶中每一部分优化和均衡的分析,每一个智能体最优的多智能体强化学习策略将得到指引和进一步探索。
列出三个基本元素:分别是智能体、策略和效用函数。
智能体:智能体是一群具有自主决策意识的个体,它们中每一个个体都可以独立地和环境进行交互。为了能使自己获得最大的收益和最小的损失,每一个智能体会基于对其他智能体动作的观察,学习并制定自己的动作策略。
策略:在多智能体强化学习中,每一个智能体会制定策略来最大化自身利益并且最小化损失。其制定的策略是基于智能体对环境的感知,并且会被其他智能体的策略影响。
效用函数:考虑到每个智能体自身的需求和对环境及其他智能体的依赖关系,每一个智能体都会有独自的效用函数。一般来说,效用函数定义为智能体在实现各种目标时获得的总收益和总成本之差。在多智能体的场景下,在对周围环境和其他智能体的学习过程种,每一个智能体会以最大化自身的效用函数为最终目标。

静态博弈:静态博弈是模拟智能体间交互的基本形式。在静态博弈中,所有智能体同时做出决策,并且每一个智能体只做出一个决策动作。由于每个智能体只行动一次,所以其可以做出一些出乎常规的欺骗和背叛策略来使自己在博弈中获益。在静态博弈中,每一个智能体在制定策略时需要考虑并防范其他智能体的欺骗和背叛来降低自身的损失。

重复博弈:==重复博弈是多个智能体在相同状态下采取重复多次的决策动作。==因此每个智能体的总效益函数是其在每次决策动作所带来的效益价值的综合。由于所有智能体会做出多次动作,当某个智能体在某一次动作时采取了欺骗或背叛的决策时,在未来的动作中,该智能体可能会收到其他智能体的惩罚和报复等。因此相比于静态博弈,重复博弈大大地避免了多智能体之间恶意的动作决策,从而整体上提高了所有智能体总效益价值之和。

随机博弈:随机博弈可以看作是一个马尔可夫过程,其中存在多个智能体在多个状态下多次做出动作决策。随机博弈模拟出了多个智能体做多次决策的一般情况,每个智能体会根据自身所出的状态,通过对环境的观测和对其他智能动作的预测,做出提升自身效用函数的最佳决策动作。

更多地关注智能体之间的交互和关联,寻求在多智能体强化学习中所有智能体之间达到均衡状态,并且每个智能体都能获得相对较高和稳定的效用函数。

优化和均衡
由于每个智能体以提高自身效用函数为目标,多智能体强化学习可以看成一个求解多个优化问题的数学问题,其中每个智能体对应一个优化问题。
纯策略纳什均衡:
所有智能体同时采取一次决策动作,在其他智能体的决策动作不改变的前提下,每个智能体不能通过改变当前决策动作而获得更高的收益,我们称所有1的智能体达到纯策略纳什均衡。
混合策略纳什均衡:
在纯策略动作之外,每个智能体还可以制定并采取决策的策略。
斯塔克尔伯格博弈:
除了同时做出决策的情况智能体之间还可能会顺序做出决策。在顺序做出决策的情况下智能体会分别被定义为领导者和追随者,其中领导者会先做出决策,追随者随后做出决策。因此领导者在决策时会有先发优势,可以通过预测追随者对其决策的反映来决定能够给自身带来最大收益的最佳决策。

博弈分析架构:
设定一个循环迭代的场景,其中所有的智能体能够在不同时间段中多次做出决策。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值