强化学习
……Riesling
爬坑骚年
展开
-
[论文]记 Improved Image Captioning via Policy Gradient optimization of SPIDEr 论文报告
这是本人第一次把一篇论文完完全全从了解到推导,而不再是走马观花,特此记下这篇理论上并不难,但是故事编的很好很有学习意义的论文。文末会附上论文链接和一些自己在看论文时无意中发现的一些好信息,以作分享。IntroductionImage Caption背景信息:1、在Image Caption中,大多数方法依靠统计学方法,在图像和字幕表述之间建立概率的配对模型,比如MLE。2、在机器翻译中,...原创 2019-03-01 09:38:00 · 1339 阅读 · 0 评论 -
【读书笔记】《深入浅出强化学习》思维导图(Reinforce Learning)及前两章节选
从最基本的马尔科夫决策过程入手,问题最基本的方法——动态规划方法。解决强化学习问题的基本思路:交互迭代策略和策略改善。介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。定义强化学习:目标:解决决策优化问题。所谓决策优化,是指面对特定状态(State,S),采取什么行动方案(Action,A),才能使收益最大(R...原创 2019-02-26 11:49:31 · 2371 阅读 · 1 评论