- 博客(9)
- 收藏
- 关注
原创 第八章 DQN算法进阶
本章介绍DQN改进的一些算法,改进角度略有不同,例如Double DQN 及Dueling DQN主要从网络模型层面改进,而PER DQN则从经验回放的角度改进。算法各有不同,但本质都是从提高预测精度和控制过程中的探索度来改善DQN算法性能。
2023-12-23 16:05:53
852
1
原创 第七章 DQN算法
定义模型即定义两个神经网络,当前网络和目标网络,由于结构相同,我们只用一个python类定义。class MLP(nn.Module): # 所有网络必须继承 nn.Module 类,这是 PyTorch 的特性# 定义网络的层,这里都是线性层self.fc1 = nn.Linear(input_dim, hidden_dim) # 输入层self.fc2 = nn.Linear(hidden_dim,hidden_dim) # 隐藏层。
2023-12-21 10:35:52
1049
原创 免模型控制
伪代码第二行到最后一行是一个强化学习的通用模式,首先迭代M回合,每回合首先重置环境到初始化,智能体根据状态选择动作,根据环境反馈下一个状态和对应奖励,同时智能体跟新策略,直到回合结束,这就是马尔可夫决策过程中智能体与环境互动过程。for i_ep in range(train_eps):#遍历每个回合#重置环境,获取初始状态state=env.reset() #重置环境,即开始新的回合while True:#对于复杂的游戏可设置每回合最大步长,例如while ep_step<100,即最大步长100。
2023-12-17 21:22:47
39
1
原创 第三章 动态规划
马尔可夫决策过程是强化学习中的基本问题模型之一,而解决马尔可夫决策过程的方法统称为强化学习算法。本章开始学习基础算法之一,动态规划(DP)。指在一个复杂问题中将其分为多个子问题进行求解。RL中,其被用来求解值函数和最优策略。包括值迭代(VI),策略迭代(PI),Q-learning。
2023-12-16 11:55:56
56
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人