强化学习第2课:强化学习,监督式学习,非监督式学习的区别

本文对比了强化学习、监督学习和非监督学习的区别。在监督学习中,目标是使预测接近标签,依赖独立数据样本。而强化学习没有预定义标签,通过尝试行动获取正负反馈,需要全面探索行为空间。非监督学习则关注数据的内在结构。尽管有所不同,实际应用中三种方法可能会结合使用。
摘要由CSDN通过智能技术生成

图片来源

现在让我们看一下强化学习和其他机器学习方法的对比。

监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

监督学习还有一个很重要的特点,就是它的数据要满足独立性。这对于使用SGD等算法,需要对数据进行采样时非常重要。

而在强化学习中却没有这些假设条件:
我们没有数据集,但是我们有一个系统,可以从中取样数据
我们也没有想要得到的结果标签,因为没有专家告诉我们要做什么。

不过我们可以自己尝试,通过采取一些行动,会有一个评判标准给我们正面或者负面的反馈
例如在广告点击率这个问题中,我们得到的反馈就可以是用户点击网页后我们得到的钱。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值