weixin_42459948-CSDN博客

原创百度强化学习七日打卡营-学习笔记

百度强化学习七日打卡营-学习笔记 1、强化学习的作用强化学习区分于监督学习和无监督学习，强化学习问题本身无法给出确切的答案，因此无法像监督学习一样，直接给出答案。其求解方法需要不断的与环境交互，以求解答案。 2、强化学习算法（1）on-policy和off-policy策略对比（1.1）q-learning 是off-policy策略，更新参数和与环境交互的策略是使用的不同的策略。（1.2）sarsa 是on-policy策略，更新参数和与环境交互的策略是采用的相同的策略。（2）DQN 在状态特别

2020-06-26 15:11:39 140

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 百度强化学习七日打卡营-学习笔记

空空如也

空空如也

原创百度强化学习七日打卡营-学习笔记