![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 95
triplemeng
这个作者很懒,什么都没留下…
展开
-
Learning to Summarize from Human Feedback
从人工反馈中学写摘要前言Seq2Seq序列-序列模型痛点Exposure biasMetrics图灵测试如何解决问题OpenAI的方案万能架构 GPT3最佳policy gradient算法实验展望前言OpenAI前一段又搞了个大新闻: 他们利用人工反馈的干预,产生出了质量大大超过人力生成的摘要论文。 到底好成什么样呢, 有图为证:实验是这样的,OpenAI请了一些人来做labeler,每次给他们一对摘要,让他们判断哪个比较好一些。可以想见,如果每次都给一对同样是人力生成的摘要,那么大概50%的时间会原创 2020-11-29 08:01:42 · 1983 阅读 · 0 评论 -
强化学习里的好奇心
去年有一篇利用好奇心驱动进行exploration的强化学习文章很有意思(Curiosity-driven Exploration by Self-supervised Prediction)。在大多数真实世界的问题中,外在世界的激励(reward)往往极其稀疏,甚至缺失。得不到反馈的agent则缺乏有效的机制更新自己的策略函数(policy)。 在这种情况下,文章提出了利用内在的好奇心来驱动对世...原创 2018-12-16 15:12:56 · 6966 阅读 · 5 评论 -
IRGAN
IRGANGAN的新领域功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入GAN的新领域最近BIGGAN又让GAN火了...原创 2019-05-03 13:06:55 · 1981 阅读 · 0 评论