深度强化学习
深度强化学习相关
bug404_
女程序猿,计算机视觉方向,主要关注transformer、视觉、深度学习框架、模型压缩和部署相关的内容。
展开
-
分别使用常规控制和强化学习方法解决cartpole swing-up问题
分别使用常规控制和强化学习方法解决cartpole swing-up问题使用常规方法控制使用强化学习来控制(重点说明)参考对于做强化学习的小伙伴,常见的是cartpole的平衡问题。可阅读论文Stephenson, 1908; Donaldson, 1960; Widrow, 1964; Michie & Chambers, 1968.比平衡问题更加具有挑战性的是cartpole的swing-up问题,就是上图gif显示的控制策略,从pole垂下自然状态,通过控制cart使pole竖直平衡(具原创 2020-11-03 22:56:39 · 1557 阅读 · 0 评论 -
高斯分布中为什么喜欢用对数似然函数而不是似然函数
https://math.stackexchange.com/questions/892832/why-we-consider-log-likelihood-instead-of-likelihood-in-gaussian-distribution原创 2021-03-19 22:19:37 · 1194 阅读 · 1 评论 -
深度强化学习专栏 —— 6. 使用RLLib和ray进行强化学习训练
我将文章发表在了古月居,一起来看看吧!戳这里 -> 古月居猜你想看:Ubuntu助手 — 一键自动安装软件,一键进行系统配置深度强化学习专栏 —— 1.研究现状深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制深度强化学习专栏 —— 3.实现一阶倒立摆深度强化学习专栏 —— 4. 使用ray做分布式计算深度强化学习专栏 —— 5. 使用ray的tune组件优化强化学习算法的超参数...原创 2021-02-20 17:17:16 · 1289 阅读 · 0 评论 -
深度强化学习专栏 —— 5. 使用ray的tune组件优化强化学习算法的超参数
我将文章发表在了古月居,一起来看看吧!-> 戳这里猜你想看:Ubuntu助手 — 一键自动安装软件,一键进行系统配置深度强化学习专栏 —— 1.研究现状深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制深度强化学习专栏 —— 3.实现一阶倒立摆深度强化学习专栏 —— 4. 使用ray做分布式计算深度强化学习专栏 —— 5. 使用ray的tune组件优化强化学习算法的超参数...原创 2021-02-19 16:40:44 · 384 阅读 · 0 评论 -
深度强化学习专栏 —— 4. 使用ray做分布式计算
我将文章发表在了古月居,一起来看看吧!-> 戳这里原创 2021-02-19 16:35:39 · 418 阅读 · 0 评论 -
深度强化学习专栏 —— 3.实现一阶倒立摆
我将文章发表在了古月居,一起来看看吧!戳这里猜你想看:深度强化学习专栏 —— 1.研究现状深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制深度强化学习专栏 —— 3.实现一阶倒立摆pybullet杂谈 :使用深度学习拟合相机坐标系与世界坐标系坐标变换关系(一)Ubuntu助手 — 一键自动安装软件,一键进行系统配置...原创 2021-01-27 09:24:21 · 856 阅读 · 0 评论 -
深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制
我将文章发表在了古月居,一起来看看吧!戳这里猜你想看:深度强化学习专栏 —— 1.研究现状深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制深度强化学习专栏 —— 3.实现一阶倒立摆pybullet杂谈 :使用深度学习拟合相机坐标系与世界坐标系坐标变换关系(一)Ubuntu助手 — 一键自动安装软件,一键进行系统配置...原创 2021-01-27 09:22:52 · 347 阅读 · 0 评论 -
深度强化学习专栏 —— 1.研究现状
我将文章发表在了古月居,一起来看看吧!戳这里猜你想看:深度强化学习专栏 —— 1.研究现状深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制深度强化学习专栏 —— 3.实现一阶倒立摆pybullet杂谈 :使用深度学习拟合相机坐标系与世界坐标系坐标变换关系(一)Ubuntu助手 — 一键自动安装软件,一键进行系统配置...原创 2021-01-27 09:20:12 · 1084 阅读 · 0 评论 -
强化学习(第二版) - 第三章公式总结及习题答案
期望回报Gt=Rt+1+Rt+2+Rt+3+⋯+RTGt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1,0≤γ≤1Gt=Rt+1+γRt+2+γ2Rt+3+⋯=Rt+1+γ(Rt+2+γRt+3+⋯ )=Rt+1+γGt+1\begin{aligned}G_t&=R_{t+1}+R_{t+2}+R_{t+3}+\cdots+R_T \\G_t&=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\cdots=\sum_{k=0原创 2020-09-05 22:50:25 · 3433 阅读 · 3 评论 -
强化学习(第二版)Sutton - 第二章习题答案和解析
强化学习(第二版)Sutton - 习题答案和解析第二章2.1 在$\第二章2.1 在$\原创 2020-09-04 11:20:13 · 10738 阅读 · 15 评论 -
Ubuntu18安装gym完整版(gym all)
安装的过程比较曲折,虽然安装成功了,现在也没明白到底是什么起了作用让执行不过去的指令突然执行成功了。说说我的过程: 需要用到gym all。git clone https://github.com/openai/gym.git#git clone https://github.com/tianheyu927/gym.git #确切的说,我使用的是这个,这个有个mil分支 #如果只是使用gym,请clone上面的链接cd gympip install原创 2020-07-14 17:14:24 · 5018 阅读 · 2 评论 -
ROS - 在ROS中使用YOLO
在ros中使用yolo一、[安装CUDA](https://developer.nvidia.com/cuda-downloads)二、[安装cuDNN](https://developer.nvidia.com/rdp/cudnn-download)三、下载usb-cam驱动四、下载darknet_ros五、修改文件,使usb-cam发布的话题能被darknet接收到一、安装CUDA安装最新版即可。二、安装cuDNN安装说明说明:在官方提供的安装说明里面,有一步是验证cuDNN安装是否正确。原创 2020-05-22 17:18:06 · 9280 阅读 · 12 评论 -
论文总结 - Playing Atari with Deep Reinforcement Learning
论文地址原创 2020-05-14 11:37:27 · 940 阅读 · 0 评论 -
论文总结 -论文写作注意事项(持续更)
论文写作注意事项一. 关于写作一 关于实验一. 关于写作当审稿人收到杂志社送来的稿件时,首先看到的是稿件的打字和排版。这就相当于你去面试时,人家先注意你的容貌和着装。所以,在写文章时,首先要了解一下想要投稿的杂志在稿件格式方面的规定和要求,千万不要别出心裁另搞一套。先从论文的序言(Introduction)部分说起。在序言中应该包括以下四方面内容:① 你所研究的问题的领域和简明轭要的背景知识② 概述在这个领域前人的工作③ 你在本工作中想要研究的问题④ 以及你得到的主要结果作为审原创 2020-05-13 22:13:48 · 3723 阅读 · 0 评论 -
强化学习 - 详细解读DQN(更新完成)
详细解读DQN一. 强化学习1. 什么是强化学习问题?2. 强化学习的理论体系(1). MDPMarkov PropertyMarkov ProcessMarkov Decision Process(2). R(reward)R(reward)R(reward)(3). Value FunctionValue\ FunctionValue Function一. 强化学习1. 什么是强化学习问题?强化学习是机器学习领域的三大分支之一,深度学习+强化学习也被认为是通往通用AI的道原创 2020-05-09 19:39:42 · 12896 阅读 · 4 评论 -
强化学习 - Deep RL开源项目总结
https://zhuanlan.zhihu.com/p/24392239一. Lua 语言的程序包(运用框架:Torch 7):1. 相关论文:Human-level control through deep reinforcement learningCODE链接(需翻墙)另外的链接(不需要翻墙):kuz/DeepMind-Atari-Deep-Q-Learner实现的算法名...转载 2020-05-07 22:48:14 · 2049 阅读 · 0 评论 -
论文总结 - CS234 Imitation Learning
论文地址原创 2020-05-06 21:18:34 · 173 阅读 · 0 评论 -
学习笔记 - Inverse RL
原创 2020-05-06 12:22:34 · 667 阅读 · 0 评论 -
强化学习 - 优化算法
来源:深入浅出强化学习:原理入门原创 2020-05-04 23:17:56 · 1489 阅读 · 0 评论 -
机器学习 - 0范数、1范数和2范数的计算以及在机器学习中的应用
0 范数、1 范数、2 范数有什么区别? - 魏通的回答 - 知乎 https://www.zhihu.com/question/20473040/answer/1029070630 范数、1 范数、2 范数有什么区别? - 凌空的回答 - 知乎 https://www.zhihu.com/question/20473040/answer/175915374...转载 2020-05-04 18:36:09 · 1036 阅读 · 0 评论 -
机器学习 | ModuleNotFoundError: No module named 'gym',但是已经安装gym
## method one# In your code file,add following:import syssys.path.append('your gym folder') # e.g. mine sys.path.append('/home/eric/gym')## method two# In your bashrc or zshrc file,add fo...原创 2020-03-27 16:52:48 · 17745 阅读 · 11 评论 -
机器学习:DeepMind和OpenAI身后的两大RL流派有什么具体的区别?
请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别? - 周博磊的回答 - 知乎 https://www.zhihu.com/question/316626294/answer/627373838作者:周博磊链接:https://www.zhihu.com/question/316626294/answer/627373838来源:知乎著作权归作者所有。商业转载请联系作...转载 2020-03-06 11:41:40 · 1546 阅读 · 0 评论 -
机器学习:蒙特卡罗方法
蒙特卡罗方法(英语:Monte Carlo method),也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。20世纪40年代,在科学家冯·诺伊曼(John von Neumann)、斯塔尼斯拉夫·乌拉姆(Stanisław Marcin Ulam)和尼古拉斯·...原创 2020-02-23 20:22:50 · 2517 阅读 · 0 评论 -
深度学习:Q-learning收敛证明
Q-learning收敛证明原创 2020-02-06 15:08:10 · 3761 阅读 · 5 评论 -
深度学习:Demystifying Deep Reinforcement Learning,揭开深度强化学习的神秘面纱
https://www.intel.ai/demystifying-deep-reinforcement-learning/#gs.w3pn15Two years ago, a small company in London called DeepMind uploaded their pioneering paper “Playing Atari with Deep Reinforcemen...转载 2020-02-06 12:20:46 · 1019 阅读 · 0 评论 -
DL--Markov decision process(MDP)(马尔可夫决策过程)
wiki:https://en.wikipedia.org/wiki/Markov_decision_process马尔可夫决策过程(MDP)是一个离散时间随机控制过程。它提供了一个数学框架,用于在结果部分随机、部分受决策者控制的情况下建模决策。MDPs有助于研究动态规划和强化学习所解决的优化问题。MDPs至少早在20世纪50年代就已为人所知;[1]Markov决策过程的一个核心研究机构源于R...原创 2020-01-03 14:10:45 · 1024 阅读 · 0 评论 -
统计--马尔科夫链
转自维基:https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE马尔可夫链(英语:Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC[1]),因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程...原创 2020-01-03 14:02:05 · 523 阅读 · 0 评论 -
DL--A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)
转自:https://blog.csdn.net/itplus/article/details/9361915本文是对http://mnemstudio.org/path-finding-q-learning-tutorial.htm的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这...转载 2020-01-03 10:53:20 · 252 阅读 · 0 评论 -
统计--Mahalanobis distance(马氏距离)
转自维基:https://en.wikipedia.org/wiki/Mahalanobis_distanceMahalanobis距离是点P和分布D之间距离的度量,由P.C.Mahalanobis于1936年引入。[1]它是测量P离D平均值多少标准差的概念的多维概括。如果P在D平均值处,则此距离为零,随着P沿着每个主分量轴移动远离平均值而增长。如果每个轴都被重新缩放为具有单位方差,则马氏距离...原创 2020-01-02 22:19:09 · 1445 阅读 · 0 评论 -
统计--Bhattacharyya distance(巴氏距离)
转自维基:https://en.wikipedia.org/wiki/Bhattacharyya_distance在统计中,Bhattacharyya距离用于度量两个概率分布的相似性。它与Bhattacharyya系数密切相关,后者是两个统计样本或总体之间重叠量的度量。两项措施均以1930年代在印度统计研究所工作的统计学家Anil Kumar Bhattacharya的名字命名。[1]该...原创 2020-01-02 21:56:59 · 8694 阅读 · 0 评论 -
IEEE robio 2019 论文集
https://github.com/borninfreedom/ieee-robio-2019/tree/master/documents原创 2019-12-11 21:06:03 · 1774 阅读 · 2 评论