本来想写到深度学习里的,但是线下和别人聊RLHF,和PPO,DPO的时候,我发现大家一脑袋问号,其实也正常,深度学习里面数学的东西没那么多,入门容易一点,强化学习(现在也都谈强化深度学习,或者深度强化学习了)反而没那么要算力,要一堆算法和数学,所以就单开一个系列,专门写强化学习吧
其实强化学习,某种程度上比深度学习更早的走进大家的视野,没错,就是那个把李昌镐,柯洁给打败的Alpha
第一课我们先讲点基础,从强化学习里最简单的无状态问题开始吧
CMU提出的" 多臂老虎机”问题是概率论中的一个经典问题,亦是强化学习中的重要模块。人们针对解决此类不确定性序列决策问题,提出了多个“躲避老虎机”算法框架
我们假设有10个老虎机,每个老虎机有一个摇把子,当然也有按钮押注,无所谓
照片摄于2019年夏天Las Vegas
每个老虎机中奖有不同的概率,这10个老虎机,我们想玩,我们把玩的步骤分为探索和利用
探索&#x