强化学习
Uncle_Sugar
数学系伪程序员
展开
-
论文笔记 Cross-modal Bidirectional Translation via Reinforcement Learning
Cross-modal Bidirectional Translation via Reinforcement Learning 先说说这篇文章是做什么的,做跨模态的翻译,但是这里也没有翻译的亚子,只是能给文本呢以及图片选择匹配度最高的对象打个分。先看网络架构 左边是一个textCNN, CNN 丢出输出后,丢给LSTM,LSTM 处理后,将所有的隐层加起来作为表征。而右边是一个CNN, CNN处理后把特征图(按图上理解)拉成一个长条也是喂给一个LSTM,中间饥饿几个全连接层用于翻译。我觉得右边在表征过程原创 2020-06-05 22:38:01 · 391 阅读 · 0 评论 -
论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI
Hierarchical Macro Strategy Model for MOBA Game AI 自从围棋被alpha go 解决之后,强化学习领域就把自己的注意力转向了RTS游戏,比如MOBA类游戏。OPENAI 玩dota, 腾讯自然就是玩王者荣耀。首先说说这个领域的难点。 问题复杂度高,状态空间或动作空间可以达到102000010^{20000}1020000 多智能体优化,因为涉及队友间的合作之类的。 信息不完全,因为存在战争迷雾 稀疏奖励以及延迟奖励,游戏结束才知道奖励。 作者还说之前的O原创 2020-06-01 23:46:42 · 671 阅读 · 0 评论 -
强化学习第九章总结,总结到9.3
这一章采取函数近似的方法,前面有提到过,状态太多的时候会考虑把策略(存疑求证,记忆里这里应该是策略,但这章提的是v函数)函数pi表示成状态的函数,只要函数的参数比状态数要少,就能起到节省空间的作用。 简单写作 v_pi(s, w) = v_pi(s) 这里的v可以是一个关于特征的线性方程,w是特征的权重,更普遍地说,v可能是一个多层神经网络而w是每一层的权重。通过调整权重...原创 2020-04-20 23:19:48 · 395 阅读 · 0 评论 -
强化学习第三章总结(一个简单的总结,因为没时间敲公式,先放在这里,之后慢慢收拾)
MDPs are a classical formalization of sequential decision making, where actions influence not just immediate rewards, but also subsequent situations, or states, and through those future rewards. ...原创 2020-04-19 13:45:51 · 491 阅读 · 0 评论