“强化学习说白了，是建立分布到分布之间的映射”？数学角度谈谈个人观点

最新推荐文章于 2023-12-14 22:38:26 发布

枇杷鹭

最新推荐文章于 2023-12-14 22:38:26 发布

阅读量1.2k

点赞数 2

分类专栏： Reinforcement Learning 深度学习文章标签：神经网络机器学习人工智能深度学习强化学习

本文链接：https://blog.csdn.net/weixin_42815609/article/details/109314914

版权

简介：F学长是我数模竞赛、科研方法道路上的最重要的启蒙人之一。 去年他成功进入清华大学。巧的是，他的研究方向也是强化学习。 疫情期间，我们打过好几轮长长的电话，讨论强化学习，其中给我印象最为深刻的是，他说： “强化学习说白了，是建立分布到分布之间的映射。” 我从没有听过别人提这样的观点，这让我静下心来，去再次思考强化学习的数学假设。 我将在此对这个观点进行分析。

本文结构

先说结论，我同意这个观点。为了论证这个观点，我将从最易于理解的“监督学习”入手，基于 “分类问题”的实质就是在拟合不同类别的数据的分布。 这个共识展开，提出 “从微观和宏观上看这个学习系统得到的理解是不同的” 这个观点。接着引申到强化学习。

深度学习的微观视角与宏观视角
强化学习的微观视角与宏观视角

深度学习的微观视角与宏观视角

听李老师的深度学习课程，最常听到的词恐怕是 “分布” 二字：无论是基础推导中的假设还是各个分支技术比如GAN/对抗攻击模型等。深度学习使用者们心中都有这样一个原则性的统计学意义上的假设： 差异性体现在群体上，而非个体上。言外之意，数据的分布比某条数据什么样子要重要得多。

李老师在开始的课程 Classification: Probabilistic Generative Model 中就证明过：我们在做分类时，实际上是对 分类的分布的参数进行拟合 ，只不过， 这其中进行了一些推导，导致我们可以直接方便地拟合神经网络的参数，而不用去管分布的参数具体是什么样子。 具体解释如下。

图片来源：李宏毅老师课程