DRL应用实战(三)——AI奥林匹克·相扑RL智能体高分方案【附代码】
于 2022-10-16 16:51:43 首次发布
本文介绍了在AI奥林匹克·相扑比赛中,结合规则智能体和RL(PPO)智能体的策略。通过手动特征提取、环境封装和训练,智能体试图通过PPO算法学习最优行为。尽管经过2M次训练,智能体的胜率仍不足20%,可能的原因包括奖励设计、特征信息不足、网络结构简单或训练样本不够。作者分享了代码链接,邀请读者尝试改进。
摘要由CSDN通过智能技术生成