转自: https://www.zhenxiangsimple.com/2019/04/12/tech-ml-qhxx
强化学习的原理,就是通过结果的反馈来对有效规则进行强化,并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于,在学习器的训练前没有标记样本的结果,而需要通过尝试来得到各行为的结果,进而来对训练本身进行反馈。
任务与奖赏
任务与奖赏是强化学习的一个基础概念,就是基于一个状态下通过执行某个动作(任务)使得状态发生改变,通过对改变后的状态进行对比来决定当前任务的好坏,如果状态变得更好则对任务进行奖赏。
k-摇臂赌博机
K摇臂赌博机是一种由K个摇臂的赌博机,玩家在放入游戏币后可以选择一个摇臂进行操作,而所有摇臂本身有不同的概率来赢得奖励,具体摇臂本身出的奖赏也只是一个概率值并非确定值,玩家需要自己根据尝试的结果来判断概率后,去最大化自己的奖赏。这个规则跟强化学习中的单步任务的模型一致,即在行为中仅考虑单步操作的最大奖赏,常用策略有 ϵ \epsilon