强化学习及其在网络规划中的应用

与有监督机器学习方法相比,DRL方法中没有实际的损失函数。

强化学习分类

  1. Q函数(Value-based Function)
    Q函数也就是经常用到的价值函数,用来估计一个(s,a)状态动作对的价值。
    Q函数的输入是“状态和动作”,输出“价值”。

1.1 Q-Learning
根据reward矩阵,在训练过程中更新Q表(Q表用于记录状态-动作对的值。每个episode中的每一步都会更新一次Q表。每一次episode的结束指的是完成任务,比如迷宫问题指的是到达终点,可参考强化学习——从Q-Learning到DQN

1.2 DQN
值函数近似(Function Approximation)的方法就是为了解决状态空间过大,也称为“维度灾难”的问题。通过用函数而不是Q表来表示 Q( s,a) ,这个函数可以是线性的也可以使非线性的。
DQN是一种深度强化学习。就是用神经网络进行function approximation(函数逼近),来模拟Q函数。
DQN(Deep Q-Network)了,实际上它就是Q-Learning和神经网络的结合,将Q-Learning的Q表变成了Q-Network.

  1. 策略函数(Policy-based Function)
    策略函数则是根据状态来输出动作或者动作的概率。 策略函数的输入是“状态”,输出是“动作或者动作的概率”。
    **Even if the prob

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值