机器学习第16章(强化学习)

                                  强化学习(reinforcement learning)

16.1 任务与奖赏

策略的优劣取决于长期执行这一策略后所得到的累积奖赏,在强化学习任务中,学习的目的就是要找到能使长期累积奖赏最大化的策略。

强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。

16.2 K-摇臂赌博机

仅探索法能很好的估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂。

softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中,若各摇臂的平均奖赏相当,则选取各摇臂的概率也相当;若某些摇臂的平均奖赏明显高于其他摇臂,则它们被选取的概率也明显更高。

16.3 有模型学习

在已知模型的环境中进行学习称为有模型学习model-based learning。

16.4 免模型学习

若学习算法不依赖于环境建模,则称为免模型学习model-free learning。

16.5 值函数近似

16.6 模仿学习(imitation learning)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值