“强化学习说白了,是建立分布到分布之间的映射”?数学角度谈谈个人观点

简介:F学长是我数模竞赛、科研方法道路上的最重要的启蒙人之一。 去年他成功进入清华大学。巧的是,他的研究方向也是强化学习。 疫情期间,我们打过好几轮长长的电话,讨论强化学习,其中给我印象最为深刻的是,他说: “强化学习说白了,是建立分布到分布之间的映射。” 我从没有听过别人提这样的观点,这让我静下心来,去再次思考强化学习的数学假设。 我将在此对这个观点进行分析。

本文结构

先说结论,我 同意 这个观点。为了论证这个观点,我将从最易于理解的“监督学习”入手,基于 “分类问题”的实质就是在拟合不同类别的数据的分布。 这个共识展开,提出 “从微观和宏观上看这个学习系统得到的理解是不同的” 这个观点。接着引申到强化学习。

目录:

  • 深度学习的微观视角与宏观视角
  • 强化学习的微观视角与宏观视角

深度学习的微观视角与宏观视角

听李老师的深度学习课程,最常听到的词恐怕是 “分布” 二字:无论是基础推导中的假设还是各个分支技术比如GAN/对抗攻击模型等。深度学习使用者们心中都有这样一个原则性的统计学意义上的假设: 差异性体现在群体上,而非个体上。言外之意,数据的分布比某条数据什么样子要重要得多。

李老师在开始的课程 Classification: Probabilistic Generative Model 中就证明过:我们在做分类时,实际上是对 分类的分布的参数进行拟合 ,只不过, 这其中进行了一些推导,导致我们可以直接方便地拟合神经网络的参数,而不用去管分布的参数具体是什么样子。 具体解释如下。

图片来源:李宏毅老师课程

如上,我们在解决一个二分类问题时,对于新输入的数据 x x x ,其属于类别 C 1 C_1 C1 的概率 P ( C 1 ∣ x ) P(C_1 | x) P(C1x) 可以用 先验概率公式 表示。而这个公式可以经过一些简单的变换,变成一个 Sigmoid 函数形式:想得知 x x x C 1 C_1 C1 类别的概率,只需要知道上图 z z

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值