强化学习
kuizhao8951
这个作者很懒,什么都没留下…
展开
-
Dynamic Path Planning of Unknown Environment Based on Deep Reinforcement Learning
Pygame module in PYTHON is used to establish dynamic environments.以激光雷达信号和局部目标位置为输入,利用卷积神经网络(CNNs)对环境状态进行泛化,而Q-learning增强了环境中动态避障和智能体局部规划的能力.结果表明,经过不同动态环境的训练和新环境的测试,该agent能够在未知的动态环境中成功地到达局部目标位置。之前的...原创 2020-03-30 18:13:31 · 1045 阅读 · 7 评论 -
A Novel GRU-RNN Network Model for Dynamic Path Planning of Mobile Robot
其他人的工作With the traditional APF method, it is easy for the mobile robot to become locally locked, for it to be subject to narrow path vibration, and for neighboring obstacles to be too close to allow ...原创 2020-03-30 11:52:34 · 619 阅读 · 0 评论 -
强化学习精要-第三部分-基于策略梯度的算法(on-policy)
文章目录策略梯度法基本原理策略梯度法改进:Actor CriticA3CA2CA2C算法实现策略单调提升算法TRPO 置信区域策略优化近端策略优化(PPO)提高策略梯度法的样本利用率基于经验回放的Actor Critic(ACER)确定策略梯度法(DPG)之前介绍的是基于最优价值的强化学习算法——值函数估计,通过最优值函数得到策略。也就是说a∗=argmaxaQ(s,a),a∗=π∗(s) ...原创 2019-11-13 11:39:25 · 1900 阅读 · 0 评论 -
强化学习精要-第一部分
文章目录前言其他资源GYMGYM downGYM introduction前言我之前有看过一本《深入浅出强化学习原理》,个人感觉到后面不管是图示还是代码都不清不楚的,但是今天要记录的书本代码清晰,并且文章一看就知道是精心雕琢出来的。在这里做自己的思维导图以及代码讲解,运行效果展示。作者分了两部分讲解,第一部分是基础,第二部分是开始学习RL的部分。第一部分包括强化学习的定义与基础知识、数学基...原创 2019-11-11 14:24:48 · 786 阅读 · 0 评论 -
强化学习实践(3):Sarsa
前言我们在强化学习实践(2)中学到了Q-learning每一步的首选通过ε -Greedy method得到在当前步sts_tst的动作ata_tat然后利用以下公式进行Q值更新Q(s,a)=(1−a)⋅Q(st,at)+a⋅(R(s,a)+γ⋅maxat+1{Q(st+1,at+1)})Q(s,a)=(1-a) \cdot Q(s_t,a_t)+a \cdot (R(s,a)+\gamm...原创 2019-11-03 11:22:11 · 250 阅读 · 0 评论 -
强化学习实践(2):Q Leaning
Q learning是一个根据与环境交互中得到的奖惩进行学习的算法,得到奖励为就会更倾向于做这件事,得到惩罚就会倾向避免。"""A simple example for Reinforcement Learning using table lookup Q-learning method.An agent "o" is on the left of a 1 dimensional worl...原创 2019-11-02 23:35:59 · 483 阅读 · 0 评论 -
强化学习实践(1):简单介绍
注:此教程为莫烦python中RL的实践笔记从监督学习到强化学习监督学习中数据和数据对应的正确标签成对,而强化学习一开始并没有这一的标签,很多强化学习是通过在环境中尝试,然后根据环境给出的反馈学习。RL算法有哪些(我们要实践哪些)RL算法以及其变种其实很多,我们这里因为是实践莫烦的RL教程,所以不讨论莫烦列出来的算法之外的算法。通过价值选行为直接选行为想象环境并从中学习...原创 2019-11-02 20:24:58 · 861 阅读 · 0 评论 -
DRL的学习-homework2:Deep Reinforcement Learning HW2: Policy Gradients
my first time use MarkDown Editorhw2_instructions.pdf1.作业介绍2.复习hw2_instructions.pdf1.作业介绍此次作业的目标是去体验策略梯度算法以及它的方差,以及策略梯度减小反差的方法。你的目标是去动手建立一个既可以用在连续环境下又可以在离散环境下的策略梯度算法,并且实验方差减小策略(这包括 reward-to-go以及ne...原创 2019-11-02 16:00:30 · 147 阅读 · 0 评论 -
DRL的学习-homework1
目录前沿作业作业一:behavioral cloning首先完成环境配置windows的环境安转ubuntu上的环境安装:然后下面的包安装后:hw1-Readmepython run_expert.py ./experts/Ant-v2.pkl Ant-v2第二个作业是:前沿由于之前已经给出视频地址以及别人的笔记地址第一课笔记:ht...原创 2019-10-28 00:17:07 · 4235 阅读 · 1 评论 -
DRL的学习-课程的介绍、地址
看伯克利的视频,配合其他人的博客(在不想看视频的时候)伯克利DRL的bilibili:https://www.bilibili.com/video/av69455099/AI研习社地址:http://www.mooc.ai/course/617其他人的笔记:https://zhuanlan.zhihu.com/p/32530166前三讲都是入门内容,讲解课程概览,深度强化学习的背景...原创 2019-10-24 16:29:29 · 9557 阅读 · 0 评论 -
《深入浅出强化学习 原理入门》读书笔记(2)
目录前言动态规划解决MDP线性方程组的解雅可比Jacobi迭代法压缩映射前言这一章涉及高斯赛德尔迭代,如果真的想了解高斯赛德尔迭代可以去看xmu学math的同学推荐的《计算方法引论》,或者看《数值分析》,并且这本书虽然大概的讲了动态规划的算法,但是给出的伪代码其实不严谨,会导致看不懂,建议有需要的时候再找其他的材料看。https://www.funnyphd....原创 2019-09-03 23:40:45 · 434 阅读 · 1 评论 -
RL-Qlearning
今天跟着莫烦学了Qlearning自己手撸了一下凑活着看#include <iostream>#include <time.h>#include <string.h>#include <math.h>#include <cstdlib>#include <map>using namespace std...原创 2019-09-03 00:04:39 · 302 阅读 · 0 评论 -
《深入浅出强化学习 原理入门》读书笔记(1)
目录前言强化学习的分类仿真环境强化学习基础MDP环境搭建:前言其他人的读书笔记资源 pdf和代码资源 这个是作者的知乎专栏 作者的知乎豆瓣的褒贬不一,如果有VPN其实可以直接开始看国外的教程,如果英文不好,可以选择看这本书。把中间的不懂的概念补上去的话其实这本书挺不错的。强化学习知乎教程推荐强化学习知乎2018论文推荐前六章很大部分参考了...原创 2019-09-03 20:02:36 · 2420 阅读 · 4 评论