自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

养生少年小余的奋进之路

无人机运动规划，强化学习，高速自主飞行

强化学习

关注

关注数：文章数：1 文章阅读量：1146 文章收藏量：4

作者: 养生少年小余

这个作者很懒，什么都没留下…

展开

强化学习整理-1.Model free方法

强化学习整理1-Model free方法 Q-learning Q-learning的基本思想是利用时序差分（TD）对状态动作价值函数Q进行更新和迭代，直到当前所有状态-动作空间下的Q值收敛。其具体数学公式为： Q(st,at)=Q(st,at)+α(rt+γQ(st+1,at+1)−Q(st,at)(1)Q(s_t,a_t)=Q(s_t,a_t)+\alpha(r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t) \tag{1}Q(st,at)=Q(st,at)+α(r

原创 2020-07-02 20:49:07 · 1146 阅读 · 1 评论