2019年10月_lsjmax

原创优先经验回放(Prioritized Experience Replay)

经验回放（experience replay）在DQN算法中，为了打破样本之间关联关系，通过经验池，采用随机抽取经历更新参数。但是，对于奖励稀疏的情况，只有N多步正确动作后才有奖励的问题，会存在能够激励Agent进行正确学习的样本很少，采用随机抽取经历得方式，效率会很低，很多样本都奖励为0的，没什么区别。解决这个问题的主要从两方法考虑，经验存储方法，经验抽取的方法，目前主要采用经验抽取的方法。...

2019-10-27 16:51:01 14630

原创感知机模型

感知机感知机时神经网络的雏形，是线性二分类器，输入实例的特征向量，输出1，-1进行实例的分类。感知机模型是寻找N维空间的超平面。(超平面是指将空间一分为二的平面，N维空间的超平面为N-1维，如二维平面的超平面是一条直线，三维空间的超平面是一个平面)。感知机模型的表示：f(x⃗)=sign(w⃗⋅x⃗+b)f(\vec{x})=sign(\vec{w} \cdot \vec{x}+b)f(x)...

2019-10-24 16:08:48 213

原创基于离线策略的强化学习(PPO)

离线策略强化学习对于基于策略的强化学习，通过建立带θ\thetaθ的策略模型，通过策略梯度进行优化，梯度如下 ∇θU=Eτ−pθ(τ)[∇θlogPθ(τ)R(τ)]\nabla_\theta U=E_{\tau -p_\theta(\tau)}[\nabla_\theta log P_\theta(\tau)R(\tau)]∇θU=Eτ−pθ(τ)[∇θlogPθ(τ)R(τ)]该...

2019-10-23 20:05:27 3049 1

原创基于策略的强化学习

基于值函数的强化学习缺点1.针对确定性策略。值函数是间接得到最优策略的方法，根据价值函数的大小，贪心选择值最大的动作，是确定性策略，每次面对同一个状态，选择的动作是同一个。2.存在策略退化。基于值函数的方法，基本是用近似器去拟合真实的价值函数，必然存在着一定的误差，但是即使将误差训练到很小了，可能导致策略变差。比如真实的价值函数得到的A,B两个动作值分别为，0.45,0.46，真正的策略应...

2019-10-19 16:51:06 3789

原创价值函数近似

价值函数逼近在传统TD算法、Q-leanring中，V价值和Q价值通常是用表格存储，不适用于大规模问题。可以采用近似器来拟合真实的价值函数。Q(s,a,θ)≈Qπ(s,a)Q(s,a,\theta) ≈Q_π(s,a)Q(s,a,θ)≈Qπ(s,a)V(s,θ)≈Vπ(s)V(s,\theta) ≈V_π(s)V(s,θ)≈Vπ(s)用一个带θ\thetaθ参数的函数近似器，来代替真实...

2019-10-18 15:43:40 543

原创 Q-learning和Sarsa

Q-learningQ-learning是基于TD(0)TD(0)TD(0)的无模型强化学习算法。其采用的价值函数为动作价值函数Q(s,a)。主要价值函数迭代公式为：Qπ(st,at)=Qπ(st,at)+α(rt+1+γmaxaQ(st+1,at+1)−Q(st,a))Q_π(s_t,a_t)=Q_π(s_t,a_t)+\alpha(r_{t+1}+γmax_aQ(s_{t+1},a_{t...

2019-10-17 22:09:20 1001

原创 Model-free强化学习

强化学习几个问题1.在线学习与离线学习在线学习：agent与环境在线交互，将样本在线学习后，使用一次就丢掉。离线学习：agent与仿真环境进行交互，将样本进行存储，也可以从别的地方直接拿来样本，可重复的从样本池中抽取样本进行学习。离线学习样本的利用率较高，但是需要保证样本的可用性。2.奖励的延迟agent与环境交互，每次得到的是立即回报，可能需要一连串动作后，才能达到最终的成功状态，获...

2019-10-17 16:32:08 1452

原创马尔可夫过程

马尔可夫过程强化学习基于马尔可夫过程，研究的问题都可以抽象成马尔可夫过程。其定义为满足马尔可夫性质的随机过程。马尔可夫性质：通俗来讲，即当前状态包含了所有相关的历史，只要当前的状态已知，下一个状态的发生可能性就已经确定，不需要知道从开始到当前状态所经历的具体的状态变换。P(st+1∣st)=P(st+1∣st,st−1,st−2...s0)P(s_{t+1}|s_t)=P(s_{t+1}|s...

2019-10-16 19:35:04 3846

原创参数估计

参数估计已知一个随机变量XXX的分布函数Fθ(x)F_\theta(x)Fθ(x)，其中θ=(θ1,θ2……θk)\theta =(\theta_1,\theta_2……\theta_k)θ=(θ1,θ2……θk)为未知的参数。利用样本X1,X2,X3...XnX_1,X_2,X_3...X_nX1,X2,X3...Xn对未知参数θ\thetaθ进行估计，或者估计θ\theta...

2019-10-01 17:10:27 375

lsjmax的博客