强化学习_strawberry47的博客-CSDN博客

强化学习

关注

文章平均质量分 93

关注数：文章数：20 文章阅读量：50683 文章收藏量：398

作者: strawberry47

研究方向：强化学习、推荐系统、多智能体。 qq邮箱：852086890@qq.com

展开

专栏收录文章

强化学习中的并行方法：ApeX框架梯度并行，A3C经验并行 | 分布式异步参数更新，分布式数据生成

有一个主网络和很多的worker。A3C把主网络的参数直接赋予worker中的网络，更新时。该架构依赖于优先记忆重放，只关注actor生成的最重要的数据。强化学习收敛速度慢，采用并行计算可以加快计算速度。与环境进行交互，产生的数据存储在。，对主网络的参数进行更新。

原创 2022-08-25 11:28:30 · 2380 阅读 · 0 评论
PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning 代码解析

PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning 论文代码运行笔记

原创 2022-07-28 10:04:42 · 3120 阅读 · 10 评论
三篇强化学习用于多智能体路径规划的论文

期刊：applied science MDPI总结：使用VGG进行特征提取，再使用DQN进行决策。论文质量较低，缺乏很多重要内容，如：环境搭建、数据集介绍、action和state的相关描述，还有很多typo；而且论文中并未体现出多机器人的思想。论文模型图非常简单，画了跟没画似的。。。和常见的强化学习交互图一样。用到了CNN来处理像素信息（应该后续会作为state），但文中并未说明图像信息来源：reward设置：离目标近，reward +0.2；碰撞，reward -20；到达目标点，reward

原创 2022-07-13 14:57:50 · 10626 阅读 · 0 评论
强化学习中 on-policy与off-policy 的理解；如何区分on-policy 与 off-policy；RL更新策略、policy结构总结

有趣的解释：古时候，优秀的皇帝都秉持着“水能载舟亦能覆舟”的思想，希望能多了解民间百姓的生活。皇帝可以选择通过微服出巡，亲自下凡了解百姓生活（On-policy），虽然眼见为实，但毕竟皇帝本人分身乏术，掌握情况不全；因此也可以派多个官员去了解情况，而皇帝本人则躺在酒池肉林里收听百官情报即可（Off-policy）。Q-learning vs. Sarsa二者都是基于TD的强化学习策略，但是前者是off-policy（有目标网络和行为网络），后者是on-policy。on-policy与off-polic

原创 2022-07-07 10:08:53 · 9901 阅读 · 1 评论
Trajectory planning for multi-robot systems: Methods and applications 综述阅读笔记

本文中Multi-Robot System (MRS) 并不局限于机器人，指代的是UAV和UGV要求：安全到达指定地点，尽量选择短距离、短时间介绍了无人机和自动驾驶：（综述的名字明明是trajectory planning，但是文中全在讲path planning）将环境分解为多个网格，获取环境表示，需要识别哪些地方是起始点、障碍。相当于一张无向图啦那么，问题就变成找到一条从初始节点到终止节点的路径迪杰斯特拉(Dijkstra)算法是典型最短路径算法，用于计算一个节点到其他节点的最短路径。它的主要

原创 2022-07-06 10:53:19 · 1241 阅读 · 0 评论
多智能体强化学习算法整理

参考博客：多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】超级经典，是基于DDPG算法改进的通过“集中式训练分布式执行”的思路，计算出每个智能体的最优策略。Counterfactual Multi-Agent Policy Gradients：解决了合作式的MARL中，如何为各个agent分配奖励的问题。设置一个反事实基线（counterfactual baseline），将action与默认action的reward比较，若更高则说明做出了贡献。对比：多智能体强化学习(二) MAPPO算

原创 2022-06-29 15:12:06 · 4172 阅读 · 0 评论
Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey 论文阅读笔记

这是一篇智慧交通领域的综述，侧重于讲解用强化学习解决交通信号灯管控 RL+TSC ；Traffic Signal Control ：交通信号灯管控，这部分还介绍了很多RL的基本概念，目标网络、经验回放等等，都是强化学习领域的常见知识点，可以看我其他笔记~交通信号灯管控：state：队伍长度、车辆位置、车辆速度目标：最小化十字路口的堵塞一般是十字路口，需要考虑不同方向和持续时长；四种绿灯阶段： North-South Green (NSG)南北方向通行, East-West Green (EWG

原创 2022-06-23 15:30:28 · 772 阅读 · 0 评论
基于强化学习的推荐系统仿真环境，Virtual-Taobao，RECSIM，RecoGym 论文整理

文章目录1.Virtual-Taobao: Virtualizing real-world online retail environment for reinforcement learning (AAAI 2019)关键：模拟了淘宝中的customer和interaction整体流程如下：方法：两个agent一. GAN-SD: Generating Customer Features二. MAIL:Generating Interactions三. ANC: Reduce Overfitting to

原创 2022-05-03 17:21:08 · 1844 阅读 · 1 评论
中科大+快手出品 CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析

文章目录get_args() 解析参数load_mat()加载矩阵gym.make(args.env) 创建环境load_dataset_kuaishou() 加载数据集负采样构建dataset类论文简介：目前几乎所有的推荐的策略都面临着“越推越窄”和信息茧房（filter bubble）问题，这对于商业公司与用户来说是双输的局面。本文在快手App的交互式推荐数据中证实了信息茧房中过曝光效应带来的负影响，并首次将因果推断技术用于动态的交互式推荐中，最终学习一个能够避免信息茧房产生的推荐策略。先运行CIR

原创 2022-04-03 09:43:54 · 3172 阅读 · 3 评论
EasyRL 强化学习笔记 9章节（Actor-Critic）

## Actor-Critic`演员-评论家算法(Actor-Critic Algorithm)`是一种结合`策略梯度`和`时序差分学习`的强化学习方法。借助critic进行单步更新。- `A3C`：Asynchronous Advantage Actor-Critic- `A2C`：Advantage Actor-Criticpolicy gradient：给定同样的action同样的state，可能会有不同的G。

转载 2021-11-29 15:35:30 · 445 阅读 · 4 评论
EasyRL 强化学习笔记 7、8章节（DQN进阶，DQN连续动作）

DQN（进阶技巧）Double DQN**原因：**DQN中，Q值往往被高估了。设计了两个Q-network：假设第一个 Q-function 高估了它现在选出来的动作 a，只要第二个 Q-function Q’没有高估这个动作 a 的值，那你算出来的就还是正常的值。假设 Q’高估了某一个动作的值，那也没差，因为只要前面这个 Q 不要选那个动作出来就没事了，这个就是 Double DQN 神奇的地方。实现上：原本DQN就有两个network，目标网络（固定不动）和行为网络（不断更新）。

转载 2021-11-15 09:40:39 · 1003 阅读 · 0 评论
EasyRL 强化学习笔记 5、6章节（PPO，DQN）

第五章 PPOFrom On-policy to Off-policy如果要学习的 agent 跟和环境互动的 agent 是同一个的话，这个叫做on-policy(同策略)。如果要学习的 agent 跟和环境互动的 agent 不是同一个的话，那这个叫做off-policy(异策略)。policy gradient就是on-policy，必须要收集到很多τ\tauτ，然后更新式子，非常耗时。变成off-policy：使用另一个actor θ′\theta'θ′跟环境互动，用收集到的数据训练

转载 2021-11-11 10:46:35 · 2855 阅读 · 0 评论
EasyRL 强化学习笔记 3、4章节（表格型方法，策略梯度）

本文转载于EasyRL。我是在阅读过程中从中摘录了一些重点，强烈建议大家阅读原文哦！写的超级细，而且在下面留言很快就会有回复。第三章表格型方法MDPMDP四元组<S,A,P,R><S,A,P,R><S,A,P,R>（有时候也会加上KaTeX parse error: Undefined control sequence: \gmma at position 1: \̲g̲m̲m̲a̲变成五元组）。RL是一个序列决策过程model-basedmodel-

转载 2021-11-10 14:51:15 · 597 阅读 · 2 评论
EasyRL 强化学习笔记 1、2章节（强化学习概述，MDP）

目录第一章强化学习概述Reinforcement Learning和监督学习对比：trajectory与episodeSequential Decision Makingstate和observation；MDP与POMDPAction SpacesMajor Components of an RL AgentPolicyValue FunctionModelPolicy-based 与 Value-basedTypes of RL Agentsvalue-based & policy-base

转载 2021-11-03 11:06:46 · 1355 阅读 · 0 评论
莫烦强化学习视频整理

RL知识整理RL分类按是否理解环境分类：Model-free RL（不理解环境）：用模型表示环境，从环境中得到反馈，再学习；只能一步一步等真实世界的反馈算法：Q Learning, Sarsa, Policy GradientsModel-Based RL（理解环境）：可以模拟现实世界，有一个虚拟环境；预判断反馈算法：Q Learning, Sarsa, Policy Gradients按思想分：Policy-Based RL（基于概率）：输出行动概率，然后根据概率采取行动（

原创 2021-10-13 15:19:40 · 246 阅读 · 0 评论
Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient AAAI2019 阅读笔记

目录IntroductionMethodsTree-structured Policy Gradient Recommendation Intuition for TPGRBalanced Hierarchical Clustering over ItemsArchitecture of TPGRState RepresentationExperiments and Results结果：Time ComparisonInfluence of Clustering Approach & Tree De

原创 2021-05-12 10:52:41 · 896 阅读 · 0 评论
Richard S.Sutton 《强化学习》学习笔记第三章

目录第3章有限马尔科夫决策过程3.1 “智能体-环境”交互接口3.2 目标和收益3.3 回报和分幕（episodes）3.4 分幕式和持续性任务的统一表示法3.5 策略和价值函数第3章有限马尔科夫决策过程一二章链接MDP涉及了延迟收益，需要在当前收益和延迟收益之间权衡。赌博机问题估计每个动作的价值q∗(a)q_*(a)q∗(a)，MDP问题中估计每个动作a在每个状态s中的价值q∗(s,a)q_*(s,a)q∗(s,a)，或者估计给定最优动作下的每个状态的价值v∗(s)v_*(s)v∗.

原创 2021-05-11 18:48:16 · 1373 阅读 · 2 评论
“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统综述

这是2021预发表的一篇强化用在推荐系统的综述，文中介绍了RLRSs的分类以及多种算法，非常全面。本篇文章只是一个简单的总结，要想详细了解相关知识还是去看看原文吧~1 introduction用于解决推荐问题的方法：collaborative filtering（协同过滤）, content-based filtering（基于内容）, and hybrid methods（混合）上述方法存在的问题：cold start（冷启动）, serendipity（惊喜度）, scalability

原创 2021-05-09 14:35:30 · 2045 阅读 · 2 评论
Richard S.Sutton 《强化学习》学习笔记第一章第二章

根据Richard S.Sutton的《强化学习》第二版为主要学习资料，整理的学习笔记目录第1章导论1.7历史I 表格型求解方法第二章多臂赌博机2.1 一个k臂赌博机问题2.2 动作-价值方法2.3 10臂测试平台2.4 增量式实现2.5 跟踪一个非平稳问题第1章导论1.7历史三条主线：动物学习心理学试错法最优控制问题以及使用价值函数和动态规划的解决方案时序差分方法最优控制：最优控制：最早用来描述控制器的问题，目标是使得动态系统..

原创 2021-05-10 21:26:41 · 1847 阅读 · 1 评论
强化学习用于推荐系统相关资料

强化学习系列三——如何处理大规模离散动作空间 https://zhuanlan.zhihu.com/p/64514037 增强学习在推荐系统有什么最新进展？https://www.zhihu.com/question/57388498/answer/80157468 RL在推荐中的综述，用很短的篇幅把强化学习在推荐系统中的工作、问题全理顺了。Reinforcement Learning based Recommender Systems: A Survey 一个tutorial对理解RL在推荐中的o.

原创 2021-05-11 08:49:44 · 799 阅读 · 0 评论

强化学习

作者: strawberry47

强化学习中的并行方法：ApeX框架 梯度并行，A3C经验并行 | 分布式异步参数更新， 分布式数据生成

PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning 代码解析

三篇强化学习用于多智能体路径规划的论文

强化学习中 on-policy与off-policy 的理解；如何区分on-policy 与 off-policy；RL更新策略、policy结构总结

Trajectory planning for multi-robot systems: Methods and applications 综述阅读笔记

多智能体强化学习算法整理

Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey 论文阅读笔记

基于强化学习的推荐系统仿真环境，Virtual-Taobao，RECSIM，RecoGym 论文整理

中科大+快手出品 CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析

EasyRL 强化学习笔记 9章节（Actor-Critic）

EasyRL 强化学习笔记 7、8章节（DQN进阶，DQN连续动作）

EasyRL 强化学习笔记 5、6章节（PPO，DQN）

EasyRL 强化学习笔记 3、4章节（表格型方法，策略梯度）

EasyRL 强化学习笔记 1、2章节（强化学习概述，MDP）

莫烦 强化学习视频整理

Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient AAAI2019 阅读笔记

Richard S.Sutton 《强化学习》 学习笔记 第三章

“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统 综述

Richard S.Sutton 《强化学习》 学习笔记 第一章 第二章

强化学习用于推荐系统 相关资料

强化学习中的并行方法：ApeX框架梯度并行，A3C经验并行 | 分布式异步参数更新，分布式数据生成

莫烦强化学习视频整理

Richard S.Sutton 《强化学习》学习笔记第三章

“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统综述

Richard S.Sutton 《强化学习》学习笔记第一章第二章

强化学习用于推荐系统相关资料