强化学习
文章平均质量分 92
可姆可汗
USTC CS
展开
-
Paper Note | Efficient DRL-Based Congestion Control With Ultra-Low Overhead
SPINE采用了层次控制架构,包含一个轻量级的CC执行器,对每个ACK和丢包进行反应,和一个DRL策略生成器,周期性地生成CC执行器的控制sub-policy(基于AIMD的轻量级参数化的控制逻辑)。每隔MI,RL agent通过收集包信息,察觉网络环境,其作为状态,被放入深度神经网络模型中,决定是否更新sub-policy,如果trigger是True,模型将会生成sub-policy的新参数,并更新CC执行器。,它判断链路不是拥塞的,增加cwnd,否则减小cwnd。原创 2024-05-05 17:04:11 · 948 阅读 · 0 评论 -
Deep Reinforment Learning Note 1
πθat∣ot)πθat∣st。原创 2024-01-11 21:03:00 · 426 阅读 · 0 评论 -
强化学习笔记
这些定义均来自于《神经网络与深度学习》这本书强化学习基本要素:状态s是对环境的描述,可以是离散的或连续的,其状态空间为SS动作a是对智能体行为的描述,可以是离散的或连续的,其动作空间为AA策略πa∣s\pi(a|s)πa∣s使智能体根据环境状态s来决定下一步动作a的函数状态转移概率ps′∣sap(s'|s,a)ps′∣sa使在智能体根据当前状态s做出一个动作a之后,环境在下一个时刻转变为状态s’的概率即时奖励rsas′r(s,a,s')rsa。原创 2023-11-22 09:31:23 · 191 阅读 · 0 评论