皇家小伟-CSDN博客

原创 datawhale学习-深度强化学习7：DQN算法

深度神经网络就是一个函数，将输入向量x映射到输出向量y，并且拥有可以学习的参数，这些参数使用梯度下降的方法来优化。Q表可以近似动作价值函数Q(s,a)，将状态向量s作为输入，并输出所有动作a=(a1,a2,...,an)对应的价值。Q表是一个二维表格，只能处理离散的状态和动作空间，神经网络则可以处理连续的输入，并且可以处理高维的状态空间。Q表中我们描述状态空间一般用的是状态个数，神经网络则是状态维度。无论是Q表还是神经网络，它们输出的都是预测，而不是直接输出动作。

2024-01-16 13:44:12 856 1

原创 datawhale学习-深度强化学习2：马尔可夫决策过程

折扣因子取值在0到1之间，表示了在考虑未来奖励是的重要程度，控制着当前奖励与未来奖励的权衡，即对长远目标的关注度。交互是在离散的时步交互的，t=0，1，2，...在每个t，智能体接受st，然后执行动作at，执行完会受到奖励rt+1以及环境会由于at变成新的状态st+1，以此循环下去。一般是有限马尔可夫决策过程，即t是有限的，上限记为T，也就是交互过程的最大步数，t=0，到t=T，称为一个回合（episode）。即给定历史状态下，st+1的状态只与st有关，而与s0，s1，s2，...，st-1的状态无关。

2024-01-15 16:22:15 924

原创 datawhale学习-深度强化学习1：绪论

在多个智能体的环境下进行强化学习，通常存在非静态问题，即环境的状态不仅由智能体的动作决定，还受到其他智能体的动作影响。其次存在信号问题，即智能体之间可以通信来合作或竞争。

2024-01-15 14:21:12 354

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人