自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 【莫烦Python】强化学习 RL 自学笔记(2)

什么是 DQN什么是 DQN - 强化学习 Reinforcement Learning | 莫烦PythonwhyQ-Learning存在的问题QLearning表格来存储每一个状态 state, 和在这个 state 每个行为 action 所拥有的 Q 值.也就是说,现在要使用神经网络替换了原有的表格储存我们可以将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值, 这样我们就没必要在表格中记录 Q 值, 而是直接使用神经网络生成 Q 值.how

2021-11-20 17:05:28 1584

原创 【莫烦Python】强化学习 RL 自学笔记(1)

什么是 Q Leaning - 强化学习 Reinforcement Learning | 莫烦PythonQ-Learning 决策状态s行为 a在行为准则Q 表中寻找 Q(s1, a1) Q(s1, a2) 的值, 并比较他们的大小, 选取较大的一个.Epsilon greedy 是用在决策上的一种策略, 比如 epsilon = 0.9 时, 就说明有90% 的情况我会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为. alpha是学习率, 来决定这次的误差有多...

2021-11-11 16:31:11 1008

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除