DRL应用实战（三）——AI奥林匹克·相扑RL智能体高分方案【附代码】

二向箔不会思考

已于 2022-10-16 16:53:58 修改

阅读量779

点赞数 1

分类专栏：深度强化学习极简入门与Pytorch实战文章标签：人工智能强化学习 PPO AI奥林匹克相扑

于 2022-10-16 16:51:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/keypig_zz/article/details/127005510

版权

深度强化学习极简入门与Pytorch实战专栏收录该内容

19 篇文章 ¥49.90 ¥99.00

订阅专栏

本文介绍了在AI奥林匹克·相扑比赛中，结合规则智能体和RL（PPO）智能体的策略。通过手动特征提取、环境封装和训练，智能体试图通过PPO算法学习最优行为。尽管经过2M次训练，智能体的胜率仍不足20%，可能的原因包括奖励设计、特征信息不足、网络结构简单或训练样本不够。作者分享了代码链接，邀请读者尝试改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RLChina 智能体挑战赛 - 壬寅年秋赛季(2022.08.23-2022.10.23)

比赛内容：AI奥林匹克·相扑游戏

参赛思路：规则智能体+RL智能体

文章目录

游戏规则
一、基于规则的智能体
- （一）基本规则智能体的设计思路（2022.09.23）
- （二）基本规则智能体的表现（2022.09.23）
二、规则智能体+RL智能体
三、代码下载链接

游戏规则

在这里插入图片描述

“奥林匹克相扑”规则（可参考科目-奥林匹克相扑）：

本游戏共有两方，对战双方各控制一个

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

二向箔不会思考 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。