自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 单纯形法python实现

来源于运筹优化常用模型(刘兴禄)

2024-03-27 20:09:11 256

原创 手撕BP(简单版)

本文仅使用numpy 库实现BP神经网络,便于理解其中的反向传播过程以及梯度等。

2024-03-14 11:30:12 376 1

原创 第八章 DQN算法进阶

本章介绍DQN改进的一些算法,改进角度略有不同,例如Double DQN 及Dueling DQN主要从网络模型层面改进,而PER DQN则从经验回放的角度改进。算法各有不同,但本质都是从提高预测精度和控制过程中的探索度来改善DQN算法性能。

2023-12-23 16:05:53 852 1

原创 第七章 DQN算法

定义模型即定义两个神经网络,当前网络和目标网络,由于结构相同,我们只用一个python类定义。class MLP(nn.Module): # 所有网络必须继承 nn.Module 类,这是 PyTorch 的特性# 定义网络的层,这里都是线性层self.fc1 = nn.Linear(input_dim, hidden_dim) # 输入层self.fc2 = nn.Linear(hidden_dim,hidden_dim) # 隐藏层。

2023-12-21 10:35:52 1049

原创 免模型控制

伪代码第二行到最后一行是一个强化学习的通用模式,首先迭代M回合,每回合首先重置环境到初始化,智能体根据状态选择动作,根据环境反馈下一个状态和对应奖励,同时智能体跟新策略,直到回合结束,这就是马尔可夫决策过程中智能体与环境互动过程。for i_ep in range(train_eps):#遍历每个回合#重置环境,获取初始状态state=env.reset() #重置环境,即开始新的回合while True:#对于复杂的游戏可设置每回合最大步长,例如while ep_step<100,即最大步长100。

2023-12-17 21:22:47 39 1

原创 第四章 免模型预测

本章介绍两种免模型预测方法,蒙特卡洛和时序差分。

2023-12-16 15:58:11 155 1

原创 第三章 动态规划

马尔可夫决策过程是强化学习中的基本问题模型之一,而解决马尔可夫决策过程的方法统称为强化学习算法。本章开始学习基础算法之一,动态规划(DP)。指在一个复杂问题中将其分为多个子问题进行求解。RL中,其被用来求解值函数和最优策略。包括值迭代(VI),策略迭代(PI),Q-learning。

2023-12-16 11:55:56 56

原创 深度强化学习task1

2023-12-13 16:20:11 40 1

原创 广度优先算法 MATLAB代码

【代码】广度优先算法 MATLAB代码。

2023-11-06 21:42:42 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除