强化学习入门到不想放弃-1

本来想写到深度学习里的,但是线下和别人聊RLHF,和PPO,DPO的时候,我发现大家一脑袋问号,其实也正常,深度学习里面数学的东西没那么多,入门容易一点,强化学习(现在也都谈强化深度学习,或者深度强化学习了)反而没那么要算力,要一堆算法和数学,所以就单开一个系列,专门写强化学习吧

      其实强化学习,某种程度上比深度学习更早的走进大家的视野,没错,就是那个把李昌镐,柯洁给打败的Alpha

图片

      第一课我们先讲点基础,从强化学习里最简单的无状态问题开始吧

      CMU提出的" 多臂老虎机”问题是概率论中的一个经典问题,亦是强化学习中的重要模块。人们针对解决此类不确定性序列决策问题,提出了多个“躲避老虎机”算法框架

     我们假设有10个老虎机,每个老虎机有一个摇把子,当然也有按钮押注,无所谓

     

图片

照片摄于2019年夏天Las Vegas

        每个老虎机中奖有不同的概率,这10个老虎机,我们想玩,我们把玩的步骤分为探索和利用

      探索&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值