乔治我不在乎-CSDN博客

原创传统路径算法-Dijastra

实现Dijastra 算法## 实现Dijkstra算法进行传统的路径规划import numpy as np# 定义了权重网络图class Dijkstra(): def __init__(self, start_node, target_node): self.node = 6 inf = 10000 self.graph = inf * np.ones((6,6), dtype=int) self.graph[0][

2021-03-25 11:48:09 246 1

原创 A3C——pytorch

这一部分的代码都来自莫凡，由于所看的书《白话强化学习》里面的代码块有一部分看不懂，转而看其他老师的代码，感觉莫老师的代码通俗易懂，但是语法可能和书上所学的有所不一样，所以还是读了这个代码，作了点注释，以供之后翻阅main.py"""Reinforcement Learning (A3C) using Pytroch + multiprocessing.The most simple implementation for continuous action.View more on my Chin

2021-03-10 21:01:17 2744 2

原创白话强化学习的DDPG源代码解读

import numpy as npimport torch, gym, argparseimport torch.nn as nnfrom torch.autograd import Variableimport torch.nn.functional as Fclass ReplayBuffer(object): def __init__(self, max_size=1e6): self.storage = [] self.max_size = .

2021-03-08 17:01:12 1133 3

原创 DQN族的学习总结

2021-03-07 21:48:10 164

原创第一次深度强化学习代码入门

nature-DQN首先是主程序：1、通过对游戏截图，得到当前状态，DQN思想是通过一定维数数据输入到神经网络中，输出当前状态下的动作（该神经网络的参数在分程序Agent中进行不断学习调整）2、学习循环：用while接一个循环，得到一盘游戏中的所有state reward信息，并输入到网络的learn模块进行学习3、跳出循环后，将贪婪概率epsion随着学习次数降低（前期贪婪有利于寻找到全局最优解）4、给定运行次数后进行测试，记录其中获得的奖励（其中有while循环，同2一样，直到游戏结束，从实

2021-03-05 20:57:01 616