强化学习(Reinforcement learning)
越野者
视频图像处理与人工智能研究者
展开
-
ADNet视频目标跟踪论文笔记
1. 论文基本信息论文标题:Action-Decision Networks for Visual Tracking with Deep ReinforcementLearning论文作者:Sangdoo Yun(Seoul National University, South Korea)等人论文出处:CVPR 2017在线阅读:http://openaccess.thecvf.co...原创 2019-10-18 09:00:13 · 1640 阅读 · 5 评论 -
ADNet视频目标跟踪源码运行笔记(MATLAB版本)——training and then test模式
1. 论文基本信息论文标题:Action-Decision Networks for Visual Tracking with Deep ReinforcementLearning论文作者:Sangdoo Yun(Seoul National University, South Korea)等人论文出处:CVPR 2017在线阅读:http://openaccess.thecvf.co...原创 2019-03-05 17:17:03 · 1892 阅读 · 4 评论 -
ADNet视频目标跟踪源码运行笔记(MATLAB版本)——Test模式
1. 论文基本信息论文标题:Action-Decision Networks for Visual Tracking with Deep ReinforcementLearning论文作者:Sangdoo Yun(Seoul National University, South Korea)等人论文出处:CVPR 2017在线阅读:http://openaccess.thecvf.co...原创 2019-01-15 20:46:22 · 1250 阅读 · 2 评论 -
深度强化学习研究笔记(1)——入门(马尔科夫决策过程,贝尔曼方程,价值迭代和策略迭代)
1. 强化学习(Reinforcement learning)概述强化学习(Reinforcement learning)的基本内涵是将问题用代理和环境进行建模。其中代理能够对环境执行一些特定的动作a∈Aa \in Aa∈A,从而到达某个状态s∈Ss \in Ss∈S,然后我们就可以根据该状态为代理赋予特定的奖励rrr。强化学习的基本思想如下图所示:代理的目标是最大化未来的奖励总和,它通过将...原创 2019-03-15 10:09:00 · 4935 阅读 · 5 评论 -
深度强化学习研究笔记(2)——Q-learning(Q-learning问题描述,Q-table方法,一个Python小例子)
文章目录1. Q-learning2.1. Q-learningQ-learning是一种典型的基于价值(Value)函数的强化学习方法,其中的Q是一个数值,通常在初始化时有可能被赋予一个任意数值(因问题场景而异),在迭代时刻ttt,我们有状态sts_tst,此时代理做出动作ata_tat,然后得到奖励rtr_trt,从而进入到一个更新的状态st+1s_{t+1}st+1,从而Q值得到...原创 2019-03-16 01:48:14 · 7858 阅读 · 4 评论 -
深度强化学习Deep Q-Network(DQN)玩CartPole游戏源码运行笔记(Pinard版本)
1. 运行环境介绍NVIDIA GTX 1070Ubuntu 16.04 x64CUDA 8.0.61cuDNN 5.1Python 3.4TensorFlow 1.2.0OpenCV 3.1.0 for Python3.4(opencv-3.1.0-np111py34_1.tar.bz2)gym(gym-0.12.0.tar.gz)2. 准备下载源码(单文件源码)并存放...原创 2019-03-24 19:58:20 · 1605 阅读 · 0 评论 -
深度强化学习Deep Q-Network(DQN)玩CartPole游戏源码运行笔记
1. 运行环境介绍NVIDIA GTX 1070Ubuntu 16.04 x64CUDA 8.0.61cuDNN 5.1Python 3.4TensorFlow 1.2.0Keras 2.2.4(Keras-2.2.4-py2.py3-none-any.whl)OpenCV 3.1.0 for Python3.4(opencv-3.1.0-np111py34_1.tar.bz2)...原创 2019-03-18 08:38:02 · 1639 阅读 · 0 评论 -
深度强化学习研究笔记(3)——Deep Q-Network(DQN)(DQN问题引入,建模,一个Python小例子)
文章目录1. DQN问题描述1. DQN问题描述传统Q-learning方法难以处理真实场景下的高维数据,将大量的state和QQQ value存储在内存中会导致计算复杂。于是有研究者想到利用深度神经网络(DNN)来高维数据的强化学习问题,其核心思想是利用价值函数的近似(Value Function Approximation)求解,通过深度神经网络来表示QQQ值的近似分布。下图描述了如何利用...原创 2019-03-26 01:32:10 · 5718 阅读 · 3 评论 -
深度强化学习玩Flappybird代码运行笔记——Testing模式
1. 运行环境介绍NVIDIA GTX 1070Ubuntu 16.04 x64CUDA 8.0.61cuDNN 5.1Python 3.4TensorFlow 1.2.0PyGame 1.9.4OpenCV 3.1.0(opencv-3.1.0-np111py34_1.tar.bz2)OpenCV-Python for Python 3.4(opencv3-3.1.0-py3...原创 2019-06-04 20:06:32 · 1447 阅读 · 0 评论