深度Q网络用语视觉格斗类游戏

最近,基于视觉深度Q的学习在雅达利和视觉Doom AI平台被证明成功的结果。与以前的研究不同,格斗游戏假设两个玩家有相当多的动作,在这项研究中,采用深度Q网络(DQN)用于视觉格斗游戏AI的比赛。动作次数减少到11,并利用视觉格斗平台测试了几个控制参数的灵敏度。实验结果表明,对于双人实时格斗游戏的DQN方法有着很大的潜力!

格斗游戏是一种国际人工智能竞赛平台,具有两个代理之间的匹配。在比赛中,蒙特卡洛树搜索(MCTS)技术是排名在前面的几种方法。近年来,基于视觉的实时游戏AI的数量有所增加,有可能采用基于视觉的方法在格斗游戏的竞争领域击败MCTS方法的情况。

特别是,采用深度Q学习网络(DQN)成功地展示了在雅达利游戏和视觉Doom AI的比赛。

在格斗游戏平台,为每一个角色一共定义了41个动作,为不同的状态定义了几种操作(比如在地上,空中,蹲着等),由于训练的动作数量相对较多,这很有挑战性,最后建议只考虑11个动作。

网络架构:

输入为4通道,分别为连续视频帧,两个卷积层和两个全连接层。

参数设置:

  • 输入为960*640像素的,然后重新变换到96*64大小尺寸;

  • 一个动作用4帧去产生,采用跳帧技术,加快动作额学习

  • 动作有上、下、右、用拳猛击、踢和六个组合键:

    - ‘Down’ + ‘Down & Right’ + ‘Right & Punch’
    - ‘Down’ + ‘Down & Right’ + ‘Right & Kick’
    - ‘Right’ + Down’ + ‘Right & Down & Punch’
    - ‘Right’ + ‘Down’ + ‘Right & Down & Kick’
    - ‘Down’ + ‘Left & Down’ + ‘Left & Punch’
    - ‘Down’ + ‘Left & Down’ + ‘Left & Kick’


  • minibatch设置为32,replay memory设置为50000,学习率为10e-6。

学习过程:

其他设置:

输入数据尺寸 

跳帧技术

行为数量

实验结果:

从上图可以看出,高分辨率的输入效果比低分辨了的好;

在跳帧技术,用较大的跳帧参数值可以增加性能;

小尺寸的行为可以额很好的提高性能。

最后给大家展示一些效果:




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值