强化学习《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》论文阅读笔记
《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》引言最近接触到了一个新的概念policy gradient。在强化学习当中,基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值去贪心选择动作。如果省略中间步骤,直接根据状态,输出动作,也就是强化学习当中另外一种重要的方法。具体的大家可以参考这一篇博客这一篇文章,主要是在a...
原创
2019-02-23 19:05:12 ·
1389 阅读 ·
0 评论