论文阅读
文章平均质量分 95
这里是一些论文阅读笔记
strawberry47
研究方向:强化学习、推荐系统、多智能体。
qq邮箱:852086890@qq.com
展开
-
三篇强化学习用于多智能体路径规划的论文
期刊:applied science MDPI总结:使用VGG进行特征提取,再使用DQN进行决策。论文质量较低,缺乏很多重要内容,如:环境搭建、数据集介绍、action和state的相关描述,还有很多typo;而且论文中并未体现出多机器人的思想。论文模型图非常简单,画了跟没画似的。。。和常见的强化学习交互图一样。用到了CNN来处理像素信息(应该后续会作为state),但文中并未说明图像信息来源:reward设置:离目标近,reward +0.2;碰撞,reward -20;到达目标点,reward原创 2022-07-13 14:57:50 · 8760 阅读 · 0 评论 -
Trajectory planning for multi-robot systems: Methods and applications 综述阅读笔记
本文中Multi-Robot System (MRS) 并不局限于机器人,指代的是UAV和UGV要求:安全到达指定地点,尽量选择短距离、短时间介绍了无人机和自动驾驶:(综述的名字明明是trajectory planning,但是文中全在讲path planning)将环境分解为多个网格,获取环境表示,需要识别哪些地方是起始点、障碍。相当于一张无向图啦那么,问题就变成 找到一条从初始节点到终止节点的路径迪杰斯特拉(Dijkstra)算法是典型最短路径算法,用于计算一个节点到其他节点的最短路径。 它的主要原创 2022-07-06 10:53:19 · 1005 阅读 · 0 评论 -
多智能体强化学习算法整理
参考博客:多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】超级经典,是基于DDPG算法改进的通过“集中式训练分布式执行”的思路,计算出每个智能体的最优策略。Counterfactual Multi-Agent Policy Gradients:解决了合作式的MARL中,如何为各个agent分配奖励的问题。设置一个反事实基线(counterfactual baseline),将action与默认action的reward比较,若更高则说明做出了贡献。对比:多智能体强化学习(二) MAPPO算原创 2022-06-29 15:12:06 · 3390 阅读 · 0 评论 -
Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey 论文阅读笔记
这是一篇智慧交通领域的综述,侧重于讲解用强化学习解决交通信号灯管控 RL+TSC ;Traffic Signal Control :交通信号灯管控,这部分还介绍了很多RL的基本概念,目标网络、经验回放等等,都是强化学习领域的常见知识点,可以看我其他笔记~交通信号灯管控:state:队伍长度、车辆位置、车辆速度目标:最小化十字路口的堵塞一般是十字路口,需要考虑不同方向和持续时长;四种绿灯阶段: North-South Green (NSG)南北方向通行, East-West Green (EWG原创 2022-06-23 15:30:28 · 569 阅读 · 0 评论 -
中科大+快手出品 CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析
文章目录get_args() 解析参数load_mat()加载矩阵gym.make(args.env) 创建环境load_dataset_kuaishou() 加载数据集负采样构建dataset类论文简介:目前几乎所有的推荐的策略都面临着“越推越窄”和信息茧房(filter bubble)问题,这对于商业公司与用户来说是双输的局面。本文在快手App的交互式推荐数据中证实了信息茧房中过曝光效应带来的负影响,并首次将因果推断技术用于动态的交互式推荐中,最终学习一个能够避免信息茧房产生的推荐策略。先运行CIR原创 2022-04-03 09:43:54 · 2566 阅读 · 3 评论 -
TPGR代码详解 Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient
在github下载代码解压后,可以看见目录如下data目录存放的是数据集,可以根据需要替换成自己的数据集。src目录就是所有代码啦看代码前我们先看看readme文件,如果某个代码中有Readme一定要先看看哦,里面通常包括了整个项目的简单介绍,包括一些参数设置。其README文件和解释如下:In run_time_tools.py, mf_with_bias() is to gain embeddings of items by utilizing the PMF model; cluste原创 2021-05-17 14:37:25 · 1268 阅读 · 0 评论 -
Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient AAAI2019 阅读笔记
目录IntroductionMethodsTree-structured Policy Gradient Recommendation Intuition for TPGRBalanced Hierarchical Clustering over ItemsArchitecture of TPGRState RepresentationExperiments and Results结果:Time ComparisonInfluence of Clustering Approach & Tree De原创 2021-05-12 10:52:41 · 722 阅读 · 0 评论 -
“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统 综述
这是2021预发表的一篇强化用在推荐系统的综述,文中介绍了RLRSs的分类以及多种算法,非常全面。本篇文章只是一个简单的总结,要想详细了解相关知识还是去看看原文吧~1 introduction用于解决推荐问题的方法:collaborative filtering(协同过滤), content-based filtering(基于内容), and hybrid methods(混合) 上述方法存在的问题:cold start(冷启动), serendipity(惊喜度), scalability原创 2021-05-09 14:35:30 · 1500 阅读 · 2 评论
分享