![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
WanderingSIN
这个作者很懒,什么都没留下…
展开
-
自适应动态规划(五)-初值不为零的值迭代
初值不为零的值迭代稳定性证明 定理一 问题描述 假设初值为任意半正定函数 V0(xk)=Ψ(xk) V_0(x_k)=\Psi(x_k) V0(xk)=Ψ(xk) 定义变量 γ‾,γ‾,δ‾\underline{\gamma},\overline{\gamma},\underline{\delta}γ,γ,δ 和δ‾\overline{\delta}δ 变量如下: KaTeX parse error: No such environment: equation at position 8: \原创 2020-11-06 15:02:02 · 1289 阅读 · 3 评论 -
自适应动态规划(四)-离散策略迭代证明
策略迭代 策略迭代稳定性证明 单调不增的证明 迭代过程 取一个随机容许初始控制律v0(xk)v_0(x_k)v0(xk) V0(xk)=U(xk,v0(xk))+V0(xk+1) V_0(x_k)=U(x_k,v_0(x_k))+V_0(x_{k+1}) V0(xk)=U(xk,v0(xk))+V0(xk+1) 在更新控制律 v1(xk)=argminuk{U(xk,uk)+V0(xk+1)} v_1(x_k)=\arg \min_{u_k}\{{U(x_k,u_k)+V_0(x_{k原创 2020-11-06 14:57:33 · 1663 阅读 · 4 评论 -
自适应动态规划(三)
自适应动态规划(三) 值迭代稳定性证明 自适应动态规划的核心就是去求解除下面的序列,但是这个序列一定是收敛的吗?论文中给出了证明。 V(x(k))=minu(k){U(x(k),u(k))+V(x(k+1))} V(x(k))=\min_{u(k)}\{U(x(k),u(k))+V(x(k+1))\} V(x(k))=u(k)min{U(x(k),u(k))+V(x(k+1))} 在这个证明中,首先确定的是 V0(x)=0V_0(x)=0V0(x)=0 的初始条件,HDP的迭代公式如下: u0(x(k原创 2020-10-12 14:29:49 · 2266 阅读 · 1 评论 -
强化学习QLearning
强化学习QLearning 我是看 B站莫烦的是视频学习的. 主要公式 Q(s,a)⇐Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]Q(s,a) \Leftarrow Q(s,a) + \alpha \left[ r + \gamma \text{max}_{a'}Q(s',a') - Q(s,a) \right]Q(s,a)⇐Q(s,a)+α[r+γmaxa′Q(s′,a...原创 2020-05-02 17:15:45 · 636 阅读 · 0 评论