![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 79
onlyTonight
这个作者很懒,什么都没留下…
展开
-
REINFORCE及进阶算法讲解笔记
总结估计VALUE-methods没有在理论上证明收敛,而policy-methods不需要估计value function。本算法总结了过去的算法,将过去算法作为特例看待,证明了即使是结合函数估计和实际采样的value梯度都可以无偏估计,证明了某种梯度迭代可以收敛到局部最优值。拓展:加入baseline,可以由任何方式得到,但不依赖于具体action和θ,可以减少variance具体计算时需要t从T开始,不断减小,累计梯度,最后更新θ和w;进一步改进:使用TD方法来估计Gt。原创 2024-04-11 13:46:11 · 940 阅读 · 0 评论 -
Deep Deterministic Policy Gradient(DDPG)算法讲解笔记
Deep Deterministic Policy Gradient,基于actor-critic模型提出了一个有效的value based连续型空间的RL算法,引入了一些帮助训练稳定的技术。基础:DQN,Batchnormm,Discretize,微积分backgroundDQN改进的推广Policy based方法(TRPO)已经在action space取得突破传统discretize action space无法拓展到高维空间,阻碍了value based在连续型空间发展。原创 2024-04-11 13:44:31 · 900 阅读 · 0 评论 -
深度强化学习路由优化、流量工程有关论文笔记
过程:给定网络中的一组预先生成的路径,流(源-目的)根据每个路由器路由表中安装的转发条目,沿着具有不同流量分割比的路径转发。当流量变化时,集中控制器将计算一个新的路由策略来适应流量动态,然后更新基于流的转发条目,以促进有意的路由策略和实现细粒度的流量控制。对于一个给定的TM,FlexEntry的任务是(1)决定需要多少关键条目(即K)实现接近最优性能路由更新开销,(2)选择一个好的组合K路由器目的地对作为关键条目,和(3)重新分配选定的流量容许下跳2平衡链路利用基于关键条目的网络。原创 2024-04-11 12:14:52 · 824 阅读 · 0 评论 -
强化学习手动导入自编写的gym环境
强化学习经常会用到gym来搭建训练环境,本文描述了如何在强化学习项目中导入自己编写的gym环境原创 2024-04-11 11:37:04 · 256 阅读 · 0 评论 -
强化学习-DQN改进及一些强化学习路由优化论文笔记
由于训练过程中有大量TDerror变更,以及新加入的transition,快速更新rank需要一直维持记录一个排好序的所有TD-error的序列,这样才能在o(logn)的时间内确定rank,否则每个新样本加入时更新rank都需要O(n)的时间。中心性的概念类似于描述一个顶点与其他顶点的关系的图中的度的概念,该链路与其他链路共享更多的转发路径,即具有较高的中心性。状态:状态是网络状态信息表示的吞吐量矩阵大小t×n,其中t表示时间步长的长度,d表示流类型的数量,和n表示总数的交通强度。原创 2024-04-11 12:03:38 · 1280 阅读 · 2 评论