自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 优先经验回放(Prioritized Experience Replay)

经验回放(experience replay)在DQN算法中,为了打破样本之间关联关系,通过经验池,采用随机抽取经历更新参数。但是,对于奖励稀疏的情况,只有N多步正确动作后才有奖励的问题,会存在能够激励Agent进行正确学习的样本很少,采用随机抽取经历得方式,效率会很低,很多样本都奖励为0的,没什么区别。解决这个问题的主要从两方法考虑,经验存储方法,经验抽取的方法,目前主要采用经验抽取的方法。...

2019-10-27 16:51:01 14630

原创 感知机模型

感知机感知机时神经网络的雏形,是线性二分类器,输入实例的特征向量,输出1,-1进行实例的分类。感知机模型是寻找N维空间的超平面。(超平面是指将空间一分为二的平面,N维空间的超平面为N-1维,如二维平面的超平面是一条直线,三维空间的超平面是一个平面)。感知机模型的表示:f(x⃗)=sign(w⃗⋅x⃗+b)f(\vec{x})=sign(\vec{w} \cdot \vec{x}+b)f(x)...

2019-10-24 16:08:48 213

原创 基于离线策略的强化学习(PPO)

离线策略强化学习对于基于策略的强化学习,通过建立带θ\thetaθ的策略模型,通过策略梯度进行优化,梯度如下 ∇θU=Eτ−pθ(τ)[∇θlogPθ(τ)R(τ)]\nabla_\theta U=E_{\tau -p_\theta(\tau)}[\nabla_\theta log P_\theta(\tau)R(\tau)]∇θ​U=Eτ−pθ​(τ)​[∇θ​logPθ​(τ)R(τ)]该...

2019-10-23 20:05:27 3049 1

原创 基于策略的强化学习

基于值函数的强化学习缺点1.针对确定性策略。值函数是间接得到最优策略的方法,根据价值函数的大小,贪心选择值最大的动作,是确定性策略,每次面对同一个状态,选择的动作是同一个。2.存在策略退化。基于值函数的方法,基本是用近似器去拟合真实的价值函数,必然存在着一定的误差,但是即使将误差训练到很小了,可能导致策略变差。比如真实的价值函数得到的A,B两个动作值分别为,0.45,0.46,真正的策略应...

2019-10-19 16:51:06 3789

原创 价值函数近似

价值函数逼近在传统TD算法、Q-leanring中,V价值和Q价值通常是用表格存储,不适用于大规模问题。可以采用近似器来拟合真实的价值函数。Q(s,a,θ)≈Qπ(s,a)Q(s,a,\theta) ≈Q_π(s,a)Q(s,a,θ)≈Qπ​(s,a)V(s,θ)≈Vπ(s)V(s,\theta) ≈V_π(s)V(s,θ)≈Vπ​(s)用一个带θ\thetaθ参数的函数近似器,来代替真实...

2019-10-18 15:43:40 543

原创 Q-learning和Sarsa

Q-learningQ-learning是基于TD(0)TD(0)TD(0)的无模型强化学习算法。其采用的价值函数为动作价值函数Q(s,a)。主要价值函数迭代公式为:Qπ(st,at)=Qπ(st,at)+α(rt+1+γmaxaQ(st+1,at+1)−Q(st,a))Q_π(s_t,a_t)=Q_π(s_t,a_t)+\alpha(r_{t+1}+γmax_aQ(s_{t+1},a_{t...

2019-10-17 22:09:20 1001

原创 Model-free强化学习

强化学习几个问题1.在线学习与离线学习在线学习:agent与环境在线交互,将样本在线学习后,使用一次就丢掉。离线学习:agent与仿真环境进行交互,将样本进行存储,也可以从别的地方直接拿来样本,可重复的从样本池中抽取样本进行学习。离线学习样本的利用率较高,但是需要保证样本的可用性。2.奖励的延迟agent与环境交互,每次得到的是立即回报,可能需要一连串动作后,才能达到最终的成功状态,获...

2019-10-17 16:32:08 1452

原创 马尔可夫过程

马尔可夫过程强化学习基于马尔可夫过程,研究的问题都可以抽象成马尔可夫过程。其定义为满足马尔可夫性质的随机过程。马尔可夫性质:通俗来讲,即当前状态包含了所有相关的历史,只要当前的状态已知,下一个状态的发生可能性就已经确定,不需要知道从开始到当前状态所经历的具体的状态变换。P(st+1∣st)=P(st+1∣st,st−1,st−2...s0)P(s_{t+1}|s_t)=P(s_{t+1}|s...

2019-10-16 19:35:04 3846

原创 参数估计

参数估计已知一个随机变量XXX的分布函数Fθ(x)F_\theta(x)Fθ​(x),其中θ=(θ1,θ2……θk)\theta =(\theta_1,\theta_2……\theta_k)θ=(θ1​,θ2​……θk​)为未知的参数。利用样本X1,X2,X3...XnX_1,X_2,X_3...X_nX1​,X2​,X3​...Xn​对未知参数θ\thetaθ进行估计,或者估计θ\theta...

2019-10-01 17:10:27 375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除