强化学习
文章平均质量分 93
strawberry47
研究方向:强化学习、推荐系统、多智能体。
qq邮箱:852086890@qq.com
展开
-
强化学习中的并行方法:ApeX框架 梯度并行,A3C经验并行 | 分布式异步参数更新, 分布式数据生成
有一个主网络和很多的worker。A3C把主网络的参数直接赋予worker中的网络,更新时。该架构依赖于优先记忆重放,只关注actor生成的最重要的数据。强化学习收敛速度慢,采用并行计算可以加快计算速度。与环境进行交互,产生的数据存储在。,对主网络的参数进行更新。原创 2022-08-25 11:28:30 · 1940 阅读 · 0 评论 -
PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning 代码解析
PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning 论文代码运行笔记原创 2022-07-28 10:04:42 · 2287 阅读 · 10 评论 -
三篇强化学习用于多智能体路径规划的论文
期刊:applied science MDPI总结:使用VGG进行特征提取,再使用DQN进行决策。论文质量较低,缺乏很多重要内容,如:环境搭建、数据集介绍、action和state的相关描述,还有很多typo;而且论文中并未体现出多机器人的思想。论文模型图非常简单,画了跟没画似的。。。和常见的强化学习交互图一样。用到了CNN来处理像素信息(应该后续会作为state),但文中并未说明图像信息来源:reward设置:离目标近,reward +0.2;碰撞,reward -20;到达目标点,reward原创 2022-07-13 14:57:50 · 8405 阅读 · 0 评论 -
强化学习中 on-policy与off-policy 的理解;如何区分on-policy 与 off-policy;RL更新策略、policy结构总结
有趣的解释:古时候,优秀的皇帝都秉持着“水能载舟 亦能覆舟”的思想,希望能多了解民间百姓的生活。皇帝可以选择通过微服出巡,亲自下凡了解百姓生活(On-policy),虽然眼见为实,但毕竟皇帝本人分身乏术,掌握情况不全;因此也可以派多个官员去了解情况,而皇帝本人则躺在酒池肉林里收听百官情报即可(Off-policy)。Q-learning vs. Sarsa二者都是基于TD的强化学习策略,但是前者是off-policy(有目标网络和行为网络),后者是on-policy。on-policy与off-polic原创 2022-07-07 10:08:53 · 4613 阅读 · 1 评论 -
Trajectory planning for multi-robot systems: Methods and applications 综述阅读笔记
本文中Multi-Robot System (MRS) 并不局限于机器人,指代的是UAV和UGV要求:安全到达指定地点,尽量选择短距离、短时间介绍了无人机和自动驾驶:(综述的名字明明是trajectory planning,但是文中全在讲path planning)将环境分解为多个网格,获取环境表示,需要识别哪些地方是起始点、障碍。相当于一张无向图啦那么,问题就变成 找到一条从初始节点到终止节点的路径迪杰斯特拉(Dijkstra)算法是典型最短路径算法,用于计算一个节点到其他节点的最短路径。 它的主要原创 2022-07-06 10:53:19 · 934 阅读 · 0 评论 -
多智能体强化学习算法整理
参考博客:多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】超级经典,是基于DDPG算法改进的通过“集中式训练分布式执行”的思路,计算出每个智能体的最优策略。Counterfactual Multi-Agent Policy Gradients:解决了合作式的MARL中,如何为各个agent分配奖励的问题。设置一个反事实基线(counterfactual baseline),将action与默认action的reward比较,若更高则说明做出了贡献。对比:多智能体强化学习(二) MAPPO算原创 2022-06-29 15:12:06 · 3229 阅读 · 0 评论 -
Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey 论文阅读笔记
这是一篇智慧交通领域的综述,侧重于讲解用强化学习解决交通信号灯管控 RL+TSC ;Traffic Signal Control :交通信号灯管控,这部分还介绍了很多RL的基本概念,目标网络、经验回放等等,都是强化学习领域的常见知识点,可以看我其他笔记~交通信号灯管控:state:队伍长度、车辆位置、车辆速度目标:最小化十字路口的堵塞一般是十字路口,需要考虑不同方向和持续时长;四种绿灯阶段: North-South Green (NSG)南北方向通行, East-West Green (EWG原创 2022-06-23 15:30:28 · 546 阅读 · 0 评论 -
基于强化学习的推荐系统仿真环境,Virtual-Taobao,RECSIM,RecoGym 论文整理
文章目录1.Virtual-Taobao: Virtualizing real-world online retail environment for reinforcement learning (AAAI 2019)关键:模拟了淘宝中的customer和interaction整体流程如下:方法:两个agent一. GAN-SD: Generating Customer Features二. MAIL:Generating Interactions三. ANC: Reduce Overfitting to原创 2022-05-03 17:21:08 · 1443 阅读 · 1 评论 -
中科大+快手出品 CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析
文章目录get_args() 解析参数load_mat()加载矩阵gym.make(args.env) 创建环境load_dataset_kuaishou() 加载数据集负采样构建dataset类论文简介:目前几乎所有的推荐的策略都面临着“越推越窄”和信息茧房(filter bubble)问题,这对于商业公司与用户来说是双输的局面。本文在快手App的交互式推荐数据中证实了信息茧房中过曝光效应带来的负影响,并首次将因果推断技术用于动态的交互式推荐中,最终学习一个能够避免信息茧房产生的推荐策略。先运行CIR原创 2022-04-03 09:43:54 · 2492 阅读 · 3 评论 -
EasyRL 强化学习笔记 9章节(Actor-Critic)
## Actor-Critic`演员-评论家算法(Actor-Critic Algorithm)`是一种结合`策略梯度`和`时序差分学习`的强化学习方法。借助critic进行单步更新。- `A3C`:Asynchronous Advantage Actor-Critic- `A2C`:Advantage Actor-Criticpolicy gradient:给定同样的action同样的state,可能会有不同的G。转载 2021-11-29 15:35:30 · 233 阅读 · 4 评论 -
EasyRL 强化学习笔记 7、8章节(DQN进阶,DQN连续动作)
DQN(进阶技巧)Double DQN**原因:**DQN中,Q值往往被高估了。设计了两个Q-network:假设第一个 Q-function 高估了它现在选出来的动作 a,只要第二个 Q-function Q’没有高估这个动作 a 的值,那你算出来的就还是正常的值。假设 Q’高估了某一个动作的值,那也没差,因为只要前面这个 Q 不要选那个动作出来就没事了,这个就是 Double DQN 神奇的地方。实现上:原本DQN就有两个network,目标网络(固定不动)和行为网络(不断更新)。转载 2021-11-15 09:40:39 · 797 阅读 · 0 评论 -
EasyRL 强化学习笔记 5、6章节(PPO,DQN)
第五章 PPOFrom On-policy to Off-policy如果要学习的 agent 跟和环境互动的 agent 是同一个的话, 这个叫做on-policy(同策略)。如果要学习的 agent 跟和环境互动的 agent 不是同一个的话, 那这个叫做off-policy(异策略)。policy gradient就是on-policy,必须要收集到很多τ\tauτ,然后更新式子,非常耗时。变成off-policy:使用另一个actor θ′\theta'θ′跟环境互动,用收集到的数据训练转载 2021-11-11 10:46:35 · 2265 阅读 · 0 评论 -
EasyRL 强化学习笔记 3、4章节(表格型方法,策略梯度)
本文转载于EasyRL。我是在阅读过程中从中摘录了一些重点,强烈建议大家阅读原文哦!写的超级细,而且在下面留言很快就会有回复。第三章 表格型方法MDPMDP四元组<S,A,P,R><S,A,P,R><S,A,P,R>(有时候也会加上KaTeX parse error: Undefined control sequence: \gmma at position 1: \̲g̲m̲m̲a̲变成五元组)。RL是一个序列决策过程model-basedmodel-转载 2021-11-10 14:51:15 · 351 阅读 · 2 评论 -
EasyRL 强化学习笔记 1、2章节(强化学习概述,MDP)
目录第一章 强化学习概述Reinforcement Learning和监督学习对比:trajectory与episodeSequential Decision Makingstate和observation;MDP与POMDPAction SpacesMajor Components of an RL AgentPolicyValue FunctionModelPolicy-based 与 Value-basedTypes of RL Agentsvalue-based & policy-base转载 2021-11-03 11:06:46 · 1015 阅读 · 0 评论 -
莫烦 强化学习视频整理
RL知识整理RL分类按是否理解环境分类:Model-free RL(不理解环境):用模型表示环境,从环境中得到反馈,再学习;只能一步一步等真实世界的反馈算法:Q Learning, Sarsa, Policy GradientsModel-Based RL(理解环境):可以模拟现实世界,有一个虚拟环境;预判断反馈算法:Q Learning, Sarsa, Policy Gradients按思想分:Policy-Based RL(基于概率):输出行动概率,然后根据概率采取行动(原创 2021-10-13 15:19:40 · 152 阅读 · 0 评论 -
Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient AAAI2019 阅读笔记
目录IntroductionMethodsTree-structured Policy Gradient Recommendation Intuition for TPGRBalanced Hierarchical Clustering over ItemsArchitecture of TPGRState RepresentationExperiments and Results结果:Time ComparisonInfluence of Clustering Approach & Tree De原创 2021-05-12 10:52:41 · 698 阅读 · 0 评论 -
Richard S.Sutton 《强化学习》 学习笔记 第三章
目录第3章 有限马尔科夫决策过程3.1 “智能体-环境”交互接口3.2 目标和收益3.3 回报和分幕(episodes)3.4 分幕式和持续性任务的统一表示法3.5 策略和价值函数第3章 有限马尔科夫决策过程一二章链接MDP涉及了延迟收益,需要在当前收益和延迟收益之间权衡。赌博机问题估计每个动作的价值q∗(a)q_*(a)q∗(a),MDP问题中估计每个动作a在每个状态s中的价值q∗(s,a)q_*(s,a)q∗(s,a),或者估计给定最优动作下的每个状态的价值v∗(s)v_*(s)v∗.原创 2021-05-11 18:48:16 · 1082 阅读 · 2 评论 -
“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统 综述
这是2021预发表的一篇强化用在推荐系统的综述,文中介绍了RLRSs的分类以及多种算法,非常全面。本篇文章只是一个简单的总结,要想详细了解相关知识还是去看看原文吧~1 introduction用于解决推荐问题的方法:collaborative filtering(协同过滤), content-based filtering(基于内容), and hybrid methods(混合) 上述方法存在的问题:cold start(冷启动), serendipity(惊喜度), scalability原创 2021-05-09 14:35:30 · 1427 阅读 · 2 评论 -
Richard S.Sutton 《强化学习》 学习笔记 第一章 第二章
根据Richard S.Sutton的《强化学习》第二版为主要学习资料,整理的学习笔记目录第1章 导论1.7历史I 表格型求解方法第二章 多臂赌博机2.1 一个k臂赌博机问题2.2 动作-价值方法2.3 10臂测试平台2.4 增量式实现2.5 跟踪一个非平稳问题第1章 导论1.7历史三条主线:动物学习心理学试错法 最优控制问题以及使用价值函数和动态规划的解决方案 时序差分方法最优控制:最优控制:最早用来描述控制器的问题,目标是使得动态系统..原创 2021-05-10 21:26:41 · 1386 阅读 · 1 评论 -
强化学习用于推荐系统 相关资料
强化学习系列三——如何处理大规模离散动作空间 https://zhuanlan.zhihu.com/p/64514037 增强学习在推荐系统有什么最新进展?https://www.zhihu.com/question/57388498/answer/80157468 RL在推荐中的综述,用很短的篇幅把强化学习在推荐系统中的工作、问题全理顺了。Reinforcement Learning based Recommender Systems: A Survey 一个tutorial对理解RL在推荐中的o.原创 2021-05-11 08:49:44 · 648 阅读 · 0 评论