ggjkd-CSDN博客

原创过河问题（图、BFS）

过河问题（图、BFS）描述：原题：3只羊和3只狮子过河，有1艘船只能容纳2只动物，当河岸上狮子数大于羊数，羊就会被吃掉，找到运输方法，让所有动物都过河。类似推广：野人传教士过河；羊狼过河；有些问题描述时会加一个农夫（渡船人），但农夫往往不是影响因素。思路：看到类似问题，想到状态搜索，搜索方式一般有两种：DFS和BFS，其都是对所有状态的一种搜索，直到搜索到目标状态定义状态：1）题目意思是，原来岸边有3狮3羊，最后要安全渡河，变成0狮0羊，那么状态必有狮子数和羊数；2）什么导致状态发生变化

2021-07-25 22:43:42 6998

原创 DDPG策略更新细节解释

DDPG算法原理DDPG采用了AC框架，与普通AC不同的是，DDPG的actor采用的是确定性策略梯度下降法得出确定的行为，而不是行为概率分布，而critic则引用了DQN的经历回放策略，使RL学习收敛更快。DDPG的组成离线策略学习，与DQN类似，有target网络（拷贝），则actor和critic共4个网络：critic_target_netcritic_eval_netactor_target_netactor_eval_net1） critic_eval_net参数更新依据TD_

2021-04-01 16:03:42 4932

原创 A3C算法详解：步骤解释、TDerror演算

一、A3C算法详解二、关于TD_error的计算二、关于行为选择注：转载请注明

2021-03-23 17:25:39 4779

原创强化学习：关于随机策略梯度法中的损失定义

还是采用神经网络用于状态和行为概率的非线性拟合1、随机策略梯度算法回顾如上图，迭代公式定义为新=旧+alpha*吃惊程度。所谓的吃惊程度是指，根据当前策略依概率选择了一个行为，虽然这个行为概率较小，但”-log"之后很大，这时候反馈回了一个奖励vt，表明这个小概率行为让决策人很吃惊，接下来要大改参数。2、如何定义神经网络损失已知策略梯度法不是依赖损失来反馈修改参数，但神经网络迭代依赖的就是损失，那么如何定义策略梯度的“损失”。将问题转换为分类问题：已经获得了一整条轨迹（s1,a1,r2,s2,

2021-03-18 19:51:06 421

原创 DQN算法&流程图&代码实现（Tensorflow2.x / Keras)

一、 DQN算法&流程图1）简介DQN全名Deep Q Network。对于离散状态空间，若智能体所处的状态成千上万，仅用表格法将状态行为对存储很不实际，例如Qlearning；对于连续状态空间企图用表格法储存更是不可能。所以才需要对值函数进行逼近，以线性或非线性的函数来完成(Q，a) = f(s，theta)的映射，并将值函数的改进变成逼近函数参数的改进，这个过程就像Q值查表一样，根据当前状态直接根据函数计算出各状态对应的Q值，再根据目标策略值函数与行为策略值函数差去更新逼近函数的参数。线性

2021-03-14 21:00:28 12692 2

原创时序差分算法：Sarsa&Qlearning

一、时序差分法通过学习后继状态s’的值函数来逼近当前状态值函数，实现对不完整轨迹的学习（因为仅估计后继状态s’）。V(st)=V(st)+α(Rt+1+γV(st+1)−V(st))V\left(s_{t}\right)=V\left(s_{t}\right)+\alpha\left(R_{t+1}+\gamma V\left(s_{t+1}\right)-V\left(s_{t}\right)\right)V(st)=V(st)+α(Rt+1+γV(st+1)−V(st))和MC相似

2021-03-12 15:52:11 606

原创无模型策略评估：蒙特卡洛（MC）方法估计

无模型策略评估：蒙特卡洛（MC）方法估计一、蒙特卡洛（MC）方法可以解决什么强化学习问题MC基于统计（大数）原理，可解决无模型的强化学习问题。核心思想为：智能体不断与环境交互，产生一系列历史轨迹（s,a,r,…,s,a,r，从开始到结束），通过索引历史轨迹中具体某个状态、行为下的累计回报G，并用他们的均值来估计这个状态、行为的值函数。二、 MC增量更新值函数的算法1、 MC一般更新算法根据核心思想：图中V（s）亦可为Q（s,a）；一般情况下，都是估计Q（s,a），因为根据贝尔曼最优，它可以直

2021-03-10 19:30:49 1203

原创动态规划求解MDP（基于贝尔曼方程）

动态规划求解MDP（基于贝尔曼方程）一、策略迭代法1. 策略评估基于贝尔曼方程的动态规划迭代：基本思想：在当前策略Pi下，初始化值函数V0，用当前策略和前Vk来更新Vk+1，直至Vk+1收敛2. 策略改进a−new=arg⁡max⁡aQπ(s,a)a_{-} n e w=\arg \max _{a} Q_{\pi}(s, a)a−new=argamaxQπ(s,a)基于贪心法来优化策略，即把有最大回报的行为来更新对应的策略Pi(a|s)，当然，因为是贪心策略，概率为1，有些时候回

2021-03-10 11:55:58 1120

原创马尔可夫决策和贝尔曼方程

马尔可夫决策和贝尔曼方程一、什么是马尔可夫性、马尔可夫过程和马尔可夫决策过程1）马尔可夫性是指当前状态s包含了过去所有的历史信息，由当前决定未来；2）马尔可夫过程，就是具有马尔可夫性的随机过程（通常由链表示，也叫马尔科夫链），仅包含状态、状态到状态的转移概率；3）马尔可夫决策过程，是根据马尔可夫过程按照策略做出决策，由（S\A\R\P\gama）组成；二、对于一个马尔可夫决策过程，R有限时，状态转移函数和回报函数1）状态转移函数`PI（a|s）表示在当前状态s下，采取动作a的概率，也

2021-03-08 20:47:07 789