人工智能笔记之专业选修课4.1.5 - 博弈论 10.博弈学习,虚构博弈简介,无悔学习简介,后悔匹配简介

博弈学习

(learning)

我们会看学习在重复博弈中的两种学习类型
  • 虚构博弈 (fictitious play)
  • 无悔学习(no-regret learning) ,尤其是一个算法叫后悔匹配 (regret matching)
目前这个话题量非常大
首先我们应该认识到在博弈论中的学习,与其他一些学科中的学习是相当不同的。比如 在机器学习,人工智能,计算机科学或者统计学优化中。
单个行动主体在环境中行动,环境对行动主体是未知的,它也可能是部分可观测的
那么就很难找出什么是最优策略,但对于最优策略有明确的定义。学习的目标是学习环境中的一些事物,如何在其中表现得最好。
在博弈论的情形下,我们的路径由其他所有参与者组成,即便你在努力学习和适应 他们也是。 最后发生的是,你无法区分学习与传授的概念,因为当你适应时,你在影响其他参与者的活动。

虚构博弈(fictitious play)

在这里插入图片描述

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值