强化学习及深度强化学习面试题

  • 什么是强化学习?
    强化学习由环境、动作和奖励组成,强化学习的目标是使得作出的一系列决策得到的总的奖励的期望最大化。

  • 强化学习和监督学习、无监督学习的区别是什么?
    监督学习带有标签;无监督学习没有标签;强化学习使用未标记的数据,根据延迟奖励学习策略。

  • 强化学习适合解决什么样子的问题?
    模型输出的动作必须要能够改变环境的状态,并且模型能够获得环境的反馈,同时状态应该是可重复到达的。

  • 强化学习的损失函数(loss function)是什么?和深度学习的损失函数有何关系?
    强化学习的损失函数是使奖励和的期望最大;深度学习中的损失函数是使预测值和标签之间的差异最小化。

  • POMDP是什么?马尔科夫过程是什么?马尔科夫决策过程是什么?里面的“马尔科夫”体现了什么性质?
    POMDP是状态部分可观测的马尔可夫决策过程;马尔科夫过程是一个二元组 <S,P>,S为状态集合,P为状态转移概率矩阵;马尔科夫决策过程是一个五元组 <S,P,A,R, γ \gamma γ>,R表示为从S到S’能够获得的奖励期望, γ \gamma γ为折扣因子,A为动作集合;马尔可夫中下一个状态只与当前状态有关,而与历史状态无关,即 P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , S 2 , . . . , S t ] P[S_t+1|S_t]=P[S_t+1|S_1,S_2,...,S_t] P[St+1St]=P[St+1S1,S2,...,St]

  • 贝尔曼方程的具体数学表达式是什么?
    v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r ( s , a ) + γ v π ( s ′ ) ] v_\pi(s)=\sum_a\pi_(a|s)\sum_{s',r}p(s',r|s,a)[r(s,a)+\gamma v_\pi(s')] vπ(s)=aπ(as)s,rp(s,rs,a)[r(s,a)+γvπ(s)]
    q π ( s , a ) = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r ( s ′ , a ) + γ v π ( s ′ ) ] q_\pi(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_\pi(s')] qπ(s,a)=s,rp(s,rs,a)[r(s,a)+γvπ(s)]

  • 最优值函数和最优策略为什么等价?
    π ∗ ( a ∣ s ) = { 1  if  a = arg ⁡ max ⁡ a ∈ A q ∗ ( s , a ) 0  otherwise  \pi^*(a|s)=\begin{cases} 1 & \text{ if } a=\arg\max_{a\in A}q^*(s,a)\\ 0 & \text{ otherwise } \end{cases} π(as)={ 10 if a=argmaxaAq(s,a) otherwise 

  • 值迭代和策略迭代的区别?
    价值迭代采用了Bellman最优算子,策略迭代采用的是Bellman期望算子。价值迭代是策略迭代的一种特殊情况,是每进行一次策略评估就更新一次策略。

  • 如果不满足马尔科夫性怎么办?当前时刻的状态和它之前很多很多个状态都有关之间关系?
    如果不满足马尔科夫性,强行只用当前的状态来决策,势必导致决策的片面性,得到不好的策略。 为了解决这个问题,可以利用RNN对历史信息建模,获得包含历史信息的状态表征。表征过程可以 使用注意力机制等手段。最后在表征状态空间求解MDP问题。

  • 求解马尔科夫决策过程都有哪些方法?有模型用什么方法?动态规划是怎么回事?
    求解MDP可以直接求解Bellman方程,但是通常Bellman方程难以列出且计算复杂度高,除此以外还可以用DP,MC,TD算法求解。有模型时可以使用DP算法。

  • 简述动态规划(DP)算法。
    DP算法是在给定MDP环境特性的条件下用来计算最优策略的,是基于模型的planning方法。动态规划有策略迭代和价值迭代两种方式,策略迭代是不断进行策略评估、策略改进的过程。每一次操作都是基于所有可能的单步后继状态价值函数以及它们出现的概率,以此来更新一个状态价值函数,它是广度期望更新的并且采用了自举法(bootstrapping)。

  • 简述蒙特卡罗估计值函数(MC)算法。
    MC算法是model-free的学习方法而不是planning,它从”经验“中学习价值函数和最优策略,”经验“是指多幕采样数据,MC通过平均样本的回报在大数定律的保证下进行策略估计,然后采用柔性策略进行MC控制。MC算法是深度采样更新,它没有使用自举法。

  • 简述时间差分(TD)算法。
    TD算法和MC算法一样可以从和环境互动的经验中学习策略而不依赖环境的动态特性,TD和DP一样都采用的自举法,是采样更新。和MC不同的是TD算法采样深度没有那么深,它不是一个完全的采样,TD的策略评估是根据它直接得到的后继状态节点的单次样本转移来更新的,换言之它不需要等到一幕完全结束而是可以立刻进行学习。它采用后继状态的价值和沿途的收益进行更新,TD控制有Sarsa、期望Sarsa和Q学习。

  • 简述动态规划、蒙特卡洛和时间差分的对比(共同点和不同点)。
    共同点:核心都是价值函数的计算,所有方法都是基于对未来事件的展望来计算一个回溯值。
    不同点:
    1、DP算法是model-based,MC和TD都是model-free
    2、DP是期望更新,MC和TD是采样更新
    3、DP是planning,MC和TD是Learning
    4、DP显示了所有的单步转移,MC是完整的一幕,TD采样不采集完整的一幕
    5、MC是最小化训练集上均方误差的估计,批量TD是找出完全符合马尔可夫模型的最大似然参数

  • MC和TD分别是无偏估计吗?
    MC是无偏估计,TD是有偏估计。

  • MC、TD谁的方差大,为什么?
    MC的方差更大,MC采样了一整幕,每次获取下一步的价值和收益都会增大方差,但是TD不是完全采样因此方差比MC小。

  • 简述on-policy和off-policy的区别
    在线策略用于学习和用于采样的是同一个策略,离线策略中行动策略用来采样,目标策略是用来学习的。在线策略不学习最优动作而是学习一个接近最优动作同时又能继续探索的动作,离线策略直接学习最优动作。

  • 简述Q-Learning,写出其Q(s,a)更新公式。它是on-policy还是off-policy,为什么?
    Q ( S t , A t ) ← Q ( S t , A t ) + α [ R t + 1 + γ max ⁡ a Q ( S t + 1 , a ) − Q ( S t , A t ) ] Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma\max_aQ(S_{t+1},a)-Q(S_t,A_t)] Q(St,A

  • 5
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值