强化学习(二)单步模型

      一、模型描述

       强化学习问题,应先考虑简单场景:最大化单步奖赏,即仅考虑一步操作

       单步强化学习对应了一个理论模型:K摇臂博彩机(K-armed Bandit)也称为K摇臂老虎机,也称为多摇臂博彩机问题Multi-Armed Bandit Problem,MABP)。

        场景描述:章鱼(赌徒) 选择一个博彩机后,投入硬币并按下摇臂,这台博彩机会以一定概率吐出硬币,但章鱼(赌徒)并不知道这个概率,他的目标是通过一定的策略最大优化自己的奖赏,即获得最多的硬币

        仅探索(Exploration-Only)将所有的尝试机会平均分配给每台老虎机(即轮流按下每个摇臂),最后以每个摇臂老虎机各自的平均吐币概率作为期望奖赏的近似估计,可以很好的估计每个摇臂老虎机的奖赏&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值