强化学习
WanderingSIN
这个作者很懒,什么都没留下…
展开
-
自适应动态规划(五)-初值不为零的值迭代
初值不为零的值迭代稳定性证明定理一问题描述假设初值为任意半正定函数V0(xk)=Ψ(xk)V_0(x_k)=\Psi(x_k)V0(xk)=Ψ(xk)定义变量 γ‾,γ‾,δ‾\underline{\gamma},\overline{\gamma},\underline{\delta}γ,γ,δ 和δ‾\overline{\delta}δ 变量如下:KaTeX parse error: No such environment: equation at position 8: \原创 2020-11-06 15:02:02 · 1307 阅读 · 3 评论 -
自适应动态规划(四)-离散策略迭代证明
策略迭代策略迭代稳定性证明单调不增的证明迭代过程取一个随机容许初始控制律v0(xk)v_0(x_k)v0(xk)V0(xk)=U(xk,v0(xk))+V0(xk+1)V_0(x_k)=U(x_k,v_0(x_k))+V_0(x_{k+1})V0(xk)=U(xk,v0(xk))+V0(xk+1)在更新控制律v1(xk)=argminuk{U(xk,uk)+V0(xk+1)}v_1(x_k)=\arg \min_{u_k}\{{U(x_k,u_k)+V_0(x_{k原创 2020-11-06 14:57:33 · 1699 阅读 · 4 评论 -
自适应动态规划(三)
自适应动态规划(三)值迭代稳定性证明自适应动态规划的核心就是去求解除下面的序列,但是这个序列一定是收敛的吗?论文中给出了证明。V(x(k))=minu(k){U(x(k),u(k))+V(x(k+1))}V(x(k))=\min_{u(k)}\{U(x(k),u(k))+V(x(k+1))\}V(x(k))=u(k)min{U(x(k),u(k))+V(x(k+1))}在这个证明中,首先确定的是 V0(x)=0V_0(x)=0V0(x)=0 的初始条件,HDP的迭代公式如下:u0(x(k原创 2020-10-12 14:29:49 · 2312 阅读 · 1 评论 -
强化学习QLearning
强化学习QLearning我是看 B站莫烦的是视频学习的.主要公式Q(s,a)⇐Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]Q(s,a) \Leftarrow Q(s,a) + \alpha \left[ r + \gamma \text{max}_{a'}Q(s',a') - Q(s,a) \right]Q(s,a)⇐Q(s,a)+α[r+γmaxa′Q(s′,a...原创 2020-05-02 17:15:45 · 652 阅读 · 0 评论