强化学习
风铃777
往前走,不要回头
展开
-
PPO学习记录
2020.4.20论文阅读问题:怎么表示策略pi的概率分布?怎么表示新旧策略的KL散度?2020.4.21 代码下载阅读https://blog.csdn.net/zhisuihen6347/article/details/88380637...原创 2020-06-12 12:36:34 · 1108 阅读 · 0 评论 -
VREP——无人机路径规划(按键控制、目标跟踪、DQN)
2020.06.12更新1、键盘控制无人机运动并保存图像、位置信息(Python)code:待审核(莫名其妙的,最近上传资源审核都不通过。如果不能下载,留言)功能:1、键盘 w s a d up down left right 八个按键控制无人机 向前 向后 向左 向右 上升 下降 左旋 右旋 \2、记录与行人的距离、动作序号、图像3、有前置摄像、下置摄像两个场景2、前置摄像opencv行人识别代码:https://download.csdn.net/downloa.原创 2020-06-12 12:24:26 · 6901 阅读 · 68 评论 -
VREP ——学习零碎
1、教程https://www.cnblogs.com/21207-iHome/p/7844865.htmlhttps://www.jianshu.com/p/839c4defd4fb原创 2020-06-12 11:13:12 · 707 阅读 · 0 评论 -
MADDPG学习记录--mapping
项目地址:Transfer Learning for Mapless Quadrotor Navigation Using Recurrent Neural Network2.19进程:查看项目,制定计划文件夹 RL_review/try.py 项目地图如下:原创 2020-02-20 23:41:23 · 3226 阅读 · 13 评论 -
MADDPG论文、项目学习记录
今天看了论文和工程介绍,明天理清算法流程并跑一遍代码吧。论文地址:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 项目地址:OPENAI-MADDPG 文文大神的项目地址学习链接:OpenAI-MADDPG 工程简单解析及个人想法 论文解读1 论文翻译存在的疑问:1 为什...原创 2020-02-16 23:23:15 · 7871 阅读 · 64 评论 -
重要性采样文章(转)
https://blog.csdn.net/Dark_Scope/article/details/70992266超级详细原创 2019-11-27 16:34:06 · 247 阅读 · 0 评论 -
Global attention与 Soft attention ——论文笔记
论文:Effective Approaches to Attention-based Neural Machine Translation 地址: https://www.aclweb.org/anthology/D15-1166/1-2节:首先,介绍了Neural machine translation 模型,机器翻译系统是一个神经网络,它直接模拟将源句子x1,…,xn翻译成目标句子y...原创 2019-11-14 22:39:33 · 706 阅读 · 0 评论 -
DARQN——Deep Attention Recurrent Q-Network学习
1、Attention机制 Attention-based Neural Machine Translation 论文地址:http://aclweb.org/anthology/D15-1166以翻译句子为例,输入的每一个单词对最后输出的结果的贡献应该是有所不同的,attention机制就是为了让输入以不同的重要性对结果产生影响,简单来说就是对 输入进行加权求和,对结果影响大的输入...原创 2019-11-12 22:44:54 · 961 阅读 · 0 评论 -
DRQN学习——代码解读
更新2019.12.5找到一个可以跑的DRQN,不用安装新的游戏环境,更新需要的库即可。做了一些修改。代码:https://github.com/Elly0723/DRQN-tensorflow主要信息————————————1、输入是[1,84,84,3]大小的图片batchsize:4,转化成[?,21168]大小的向量,再reshape成[?,84,84,3]进入四层卷积,经过单...原创 2019-11-08 22:28:23 · 6087 阅读 · 13 评论 -
值得一读的深度推荐系统与CTR预估论文
20篇最值得一读的深度推荐系统与CTR预估论文 https://www.tinymind.cn/articles/4261转载 2019-07-25 15:31:46 · 144 阅读 · 0 评论 -
强化学习3(2) Qlearning Sarsa 代码解读
Qlearning与Sarsa的区别在于:Sarsa为同策略,行动搜索和评估都采用-贪婪;Qlearning是异策略。异策略off-policy:产生数据的策略 (行动策略) 与 评估和改善的策略(评估策略)不同同策略 on-policy:相同行动策略:在选择动作a到达状态s'的时候,采用贪婪算法评估(目标)策略: 在选择状态s‘的下一个动作,求Q(St+1)时,采用贪婪...原创 2019-05-18 18:35:45 · 491 阅读 · 2 评论 -
强化学习2 基于蒙特卡罗的强化学习
“强化学习的精髓之一,就是解决无模型的马尔科夫决策问题。”——《深入浅出强化学习》第四章蒙特卡罗方法:在无模型(状态转移概率未知)的强化学习中,随机地从状态出发,经过许多次试验,最终到达终止状态,如图(蒙特卡罗中的经验):利用蒙特卡罗方法求状态处的值函数时,又可以分为第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法。第一次访问蒙特卡罗方法是指,在计算状态s处值函数时,只利用每次试验中第...原创 2019-05-18 16:11:48 · 539 阅读 · 0 评论 -
强化学习3 基于时间差分的强化学习方法
相关连接:《深入浅出强化学习-原理入门》作者知乎分享:https://zhuanlan.zhihu.com/p/25580624课本中的代码:https://github.com/gxnk/reinforcement-learning-code今天的进程:1、activate python pip install gym 即可安装gym2、基于时间差分(TD)的强化学习理...原创 2019-05-17 22:07:23 · 2860 阅读 · 1 评论 -
强化学习4 policynet
彩色为新学习的内容PolicyNet学习已知:小车倒立摆环境,状态空间s:[,,,],动作空间:[0,1],动作1时施加正向10N的力,动作为0施加反向10N的力。神经网络输入 为 小车状态s,是与环境交互得到的,输出是动作的...原创 2019-05-19 20:18:44 · 1297 阅读 · 0 评论 -
强化学习1 高斯赛德尔迭代
开始看《深入浅出强化学习——原理入门》,由于时间有限,做个简要的笔记。“深度学习如图像识别和语音识别解决的是感知问题,强化学习解决的是决策问题,人工智能的终极目标就是经过感知进行智能决策。”1、区分有模型 无模型: 状态转移概率Pss'已知,是有模型的强化学习;2、(有模型的强化学习)值函数是怎么来的:高斯赛德尔迭代,用前一次的值计算后一次的值,直到收敛!以下是高斯赛德尔迭代求值函...原创 2019-05-13 21:46:41 · 1242 阅读 · 0 评论