Byr0611-CSDN博客

原创手撕BP（简单版）

本文仅使用numpy 库实现BP神经网络，便于理解其中的反向传播过程以及梯度等。

2024-03-14 11:30:12 376 1

原创第八章 DQN算法进阶

本章介绍DQN改进的一些算法，改进角度略有不同，例如Double DQN 及Dueling DQN主要从网络模型层面改进，而PER DQN则从经验回放的角度改进。算法各有不同，但本质都是从提高预测精度和控制过程中的探索度来改善DQN算法性能。

2023-12-23 16:05:53 852 1

定义模型即定义两个神经网络，当前网络和目标网络，由于结构相同，我们只用一个python类定义。class MLP(nn.Module): # 所有网络必须继承 nn.Module 类，这是 PyTorch 的特性# 定义网络的层，这里都是线性层self.fc1 = nn.Linear(input_dim, hidden_dim) # 输入层self.fc2 = nn.Linear(hidden_dim,hidden_dim) # 隐藏层。

2023-12-21 10:35:52 1049

原创免模型控制

伪代码第二行到最后一行是一个强化学习的通用模式，首先迭代M回合，每回合首先重置环境到初始化，智能体根据状态选择动作，根据环境反馈下一个状态和对应奖励，同时智能体跟新策略，直到回合结束，这就是马尔可夫决策过程中智能体与环境互动过程。for i_ep in range(train_eps):#遍历每个回合#重置环境，获取初始状态state=env.reset() #重置环境，即开始新的回合while True:#对于复杂的游戏可设置每回合最大步长，例如while ep_step<100,即最大步长100。

2023-12-17 21:22:47 39 1