【Pytorch项目实战】之强化学习:Q-Learning、SARSA、DQN
Q-Learning、SARSA、深度Q网络(Deep Q Network,DQN)、策略梯度(Policy Gradients)等。:环境(Environment)、主体(Agent)、状态(State)、动作(Action)、奖励(Reward)的行动策略,有些动作将始终无法选择,进而导致无法更新Q值,将不利于发现更有价值的情况。问题1:(1)在实际应用下,由于场景很复杂,很难定义出离散且有限的状态和动作。若安装失败就多试几次。问题2:(2)即使能够定义,数量非常大的情况下,无法用数组存储。
复制链接