现在让我们看一下强化学习和其他机器学习方法的对比。
在监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。
监督学习还有一个很重要的特点,就是它的数据要满足独立性。这对于使用SGD等算法,需要对数据进行采样时非常重要。
而在强化学习中却没有这些假设条件:
我们没有数据集,但是我们有一个系统,可以从中取样数据。
我们也没有想要得到的结果标签,因为没有专家告诉我们要做什么。
不过我们可以自己尝试,通过采取一些行动,会有一个评判标准给我们正面或者负面的反馈。
例如在广告点击率这个问题中,我们得到的反馈就可以是用户点击网页后我们得到的钱。