用DQN实现Atari game（Matlab代码实现）

最新推荐文章于 2024-06-04 13:27:03 发布

然哥爱编程

最新推荐文章于 2024-06-04 13:27:03 发布

阅读量1.1k

点赞数 1

分类专栏：神经网络文章标签： matlab 开发语言

本文链接：https://blog.csdn.net/m0_73907476/article/details/129466779

版权

神经网络专栏收录该内容

29 篇文章 2 订阅

订阅专栏

该文介绍了强化学习中的深度Q网络(DQN)方法，用于处理高维状态空间的问题。DQN通过神经网络估计状态-动作值函数，解决表格方法的局限性。文中还提及了学习过程中的损失函数计算和权重更新，并展示了在pong游戏中的应用。此外，文章引用了一项基于改进DQN的机器人路径规划研究。

摘要由CSDN通过智能技术生成

💥1 概述

📚2 运行结果

🎉3 参考文献

👨‍💻4 Matlab代码

💥1 概述

强化学习研究的是Agent和环境交互中如何学习最优策略，以获得最大收益。Agent需要能够观察环境(observe)所处的状态，评判（value）状态下每个动作的价值，并选出最优的动作（act）来和环境交互。因此，observe，value和act是强化学习Agent必不可少的元素。

对于复杂的问题，state维度非常大，我们很难基于tabular method来判断每一个(state, action)的价值。这种情况下，我们利用function approximation方法，构建一个深度神经网络(Deep-Q Network, DQN)，来估计(state, action)的价值。value()中Deep-Q Network模块就是一个神经网络，输入是atari game中的一帧图像，输出是每个action的价值。

强化学习，指的就是Agent与环境交互，不断强化，不断学习，最终找到解决问题的最优策略，那么学习（learn）就是强化学习必不可少的元素。在深度强化学习中，主要关注的就是DQN权重的学习，与深度神经网络的学习很相近，都是算一个loss，然后通过back-prop更新权重。

📚2 运行结果

主函数部分代码：

% RunDQN.m

clear; clc; close all;

tic;

% First specify if you use Octave (true) or Matlab (false)

Octave = false;

% Set State for Random Generator

if Octave

rand('state', 895647); % 895647

else

rng(895647);

end

global fieldHeight

global fieldWidth

global Memory

% Fix size of the Pong Field

fieldHeight = 64;

fieldWidth = 32;

% ---------------------- Step 1: Initializazion ------------------------ %

% ---------------------- 1. Setup Learning Parameters ------------------ %

if Octave

StartLearning = 1600 ; % # of Random Episodes before Learning starts

NEpisodes = 20000; % Octave is much slower but this works as well (at least on Windows?)

LearningRate = 6e-1 ;

MaxMemory = 1e4 ; % Size of the Memory (Again smaller for Octave)

UpdateTarget = 4001 ; % Periode with which Target is updated

else

StartLearning = 5000 ; % # of Random Episodes before Learning starts

NEpisodes = 46000;

LearningRate = 4e-1 ;

MaxMemory = 1e5 ; % Size of the Memory

UpdateTarget = 10001; % Periode with which Target is updated

end

🎉3 参考文献

[1]董永峰,杨琛,董瑶等.基于改进的DQN机器人路径规划[J].计算机工程与设计,2021,42(02):552-558.DOI:10.16208/j.issn1000-7024.2021.02.037.

👨‍💻4 Matlab代码

然哥爱编程

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用DQN实现Atari game（Matlab代码实现）

Agent需要能够观察环境(observe)所处的状态，评判（value）状态下每个动作的价值，并选出最优的动作（act）来和环境交互。因此，observe，value和act是强化学习Agent必不可少的元素。强化学习，指的就是Agent与环境交互，不断强化，不断学习，最终找到解决问题的最优策略，那么学习（learn）就是强化学习必不可少的元素。在深度强化学习中，主要关注的就是DQN权重的学习，与深度神经网络的学习很相近，都是算一个loss，然后通过back-prop更新权重。
复制链接

扫一扫

专栏目录