强化学习文献阅读
文章平均质量分 83
Wwwilling
深度强化学习 知识图谱 Transformer
展开
-
【强化学习论文】柔性行为综合的扩散规划
diffuser原创 2022-12-09 10:56:38 · 1043 阅读 · 0 评论 -
【强化学习论文】多智能体强化学习是一个序列建模问题
是agent的动作空间的乘积,即 联合动作空间,R:O×A→[−Rmax,Rmax]R : O × A → [−R_{max}, R_{max}]R:O×A→[−Rmax,Rmax] 为联合奖励函数,P:O×A×O→RP : O × A × O → RP:O×A×O→R 为转移概率函数,γ∈[0,1)γ ∈ [0, 1)γ∈[0,1) 为折扣因子。 在时间步 t∈Nt ∈ Nt∈N,代理 i∈Ni ∈ Ni∈N 观察到一个观察 oti∈Oi(o=(o1,...,on)o^i_t ∈ O^i (o = (原创 2022-12-07 18:04:43 · 1865 阅读 · 1 评论 -
【强化学习论文】离线元强化学习中基于对比学习的稳定表示
基于对比学习 离线强化学习原创 2022-12-04 23:26:14 · 747 阅读 · 0 评论 -
【推荐系统论文】推荐系统的监督优势 Actor-Critic
推荐系统原创 2022-10-26 23:08:47 · 328 阅读 · 0 评论 -
【Transformer论文】Trajectory Transformer离线强化学习作为一个大序列建模问题
Trajectory Transformer原创 2022-10-25 00:12:20 · 1469 阅读 · 0 评论 -
【强化学习论文】Decision Transformer:通过序列建模进行强化学习
Article文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling文献时间:2021摘要我们引入了一个将强化学习(RL)抽象为序列建模问题的框架。 这使我们能够利用 Transformer 架构的简单性和可扩展性,以及 GPT-x 和 BERT 等语言建模的相关进步。 特别是,我们提出了决策转换器,一种将 RL 问题转换为条件序列建模的架构。 与先前的强化学习方法拟合值函数或计算策略梯度不同,Decision原创 2022-03-30 21:58:15 · 4139 阅读 · 0 评论 -
【Decision Transformer】
Decision Transformer原创 2022-03-30 17:12:41 · 1574 阅读 · 0 评论 -
【知识图谱论文】通过强化学习进行时间链接预测
Article文献题目:TEMPORAL LINK PREDICTION VIA REINFORCEMENT LEARNING文献时间:2021摘要带有时间戳的大量事件数据的可用性引起了对动态知识图(KGs)的研究。 在动态知识图谱中,时间链接预测是一项重要任务,它预测实体之间的未来交互。 与传统的统计链接预测任务相比,时间链接预测面临三个主要挑战:i)如何处理我们以前没有观察到的新实体。 ii) 如何对时间进化模式进行建模。 iii) 如何在不重新训练模型的情况下适应 KG 的变化。 为了应对这原创 2022-03-24 17:01:13 · 2486 阅读 · 2 评论 -
【知识图谱论文】HackRL:用于跨图知识融合和协作推理的分层注意强化学习
Article文献题目:HackRL: Reinforcement learning with hierarchical attention for cross-graph knowledge fusion and collaborative reasoning文献时间:2021发表期刊:Knowledge-Based Systems摘要旨在通过知识图(KG)推断隐含事实的推理是各种基于知识的智能服务的关键和基础任务。随着多个分布式和互补的 KGs,有效和高效地捕获和融合来自不同 KGs 的知识原创 2022-03-03 14:42:41 · 668 阅读 · 0 评论 -
【知识图谱论文】使用强化学习对时间知识图中的路径进行多跳推理
Article文献题目:Multi-hop reasoning over paths in temporal knowledge graphs using reinforcement learning文献时间:2021发表期刊:Applied Soft Computing摘要知识图谱(KGs)通常是不完整的——许多新的事实可以从 KGs 和现有的信息中推断出来。在一些传统的推理方法中,没有考虑时间信息,这意味着只训练三元组(头、关系、尾)。在当前的动态知识图中,考虑事实的时间方面是一个挑战。最近原创 2022-02-24 19:18:36 · 1723 阅读 · 1 评论 -
【医疗人工智能】通过强化学习和分类的自适应对齐进行有效的症状查询和诊断
Article文献题目:Graph-Evolving Meta-Learning for Low-Resource Medical Dialogue Generation摘要医疗自动诊断系统旨在模拟人类医生在真实的诊断过程中。该任务被表述为具有症状查询和疾病诊断的顺序决策问题。近年来,许多研究人员使用强化学习方法来处理这项任务。然而,最近的工作忽略了区分症状询问和疾病诊断动作,并将它们混合到一个动作空间中。这导致强化学习方法在该任务上的表现不令人满意。此外,缺乏包含各种疾病和相应信息的公共评估数据集原创 2022-02-13 21:36:36 · 1788 阅读 · 0 评论 -
【知识图谱论文】R2D2:基于辩论动态的知识图推理
Article文献题目:Reasoning on Knowledge Graphs with Debate Dynamics文献时间:2020发表期刊:AAAIhttps://github.com/m-hildebrandt/R2D2原创 2022-02-12 18:46:13 · 1232 阅读 · 0 评论 -
【知识图谱论文】AttnPath:将图注意力机制融入基于深度强化的知识图推理
Article文献题目:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement文献时间:2019发表期刊:EMNLP摘要知识图谱(KG)推理旨在寻找关系的推理路径,以解决知识图谱中的不完整性问题。许多以前的基于路径的方法,如 PRA 和 DeepPath,都缺乏记忆组件,或者陷入训练中。因此,他们的表现总是依赖于良好的预训练。在本文中,我们提出了一个名为原创 2022-02-11 23:58:01 · 1341 阅读 · 0 评论 -
【知识图谱论文】DIVINE:用于知识图推理的生成对抗模仿学习框架
Article文献题目:DIVINE: A Generative Adversarial Imitation Learning Framework for Knowledge Graph Reasoning文献时间:2019发表期刊:EMNLP摘要知识图谱(KGs)经常遭受稀疏和不完整的困扰。知识图谱推理为解决此类问题提供了一种可行的方法。最近对知识边图推理的研究表明,基于强化学习 (RL) 的方法可以提供最先进的性能。然而,现有的基于 RL 的方法需要大量的路径寻找试验,并且严重依赖细致的奖励原创 2022-02-10 16:55:50 · 959 阅读 · 0 评论 -
【知识图谱论文】MINERVA:使用强化学习对知识库中的路径进行推理
Article文献题目:Go for a Walk and Arrive at the Answer:Reasoning Over Paths in Knowledge Bases with Reinforcement Learning文献时间:2018发表期刊:ICIRhttps://github.com/shehzaadzd/MINERVA摘要自动和手动构建的知识库 (KB) 通常是不完整的——通过综合现有信息可以从 KB 中推断出许多有效的事实。知识库补全的一种流行方法是通过对沿着连接一原创 2022-02-10 00:07:17 · 3368 阅读 · 0 评论 -
【知识图谱】通过深度强化学习的可解释的基于知识图的推荐
Article作者:Weiping Song, Zhijian Duan, Ziqing Yang, Hao Zhu, Ming Zhang, Jian Tang文献题目:通过深度强化学习的可解释的基于知识图的推荐文献时间:2019https://github.com/DeepGraphLearning/RecommenderSystems摘要本文研究了具有知识图谱的推荐系统,可以有效解决数据稀疏和冷启动问题。最近,针对这个问题已经开发了多种方法,通常尝试学习用户和项目的有效表示,然后根据原创 2021-10-25 16:39:22 · 701 阅读 · 0 评论 -
基于知识引导的强化学习相关算法介绍
伏羲课堂学习笔记absorbing states:一旦进入了state就不会出来了。原创 2021-08-03 12:52:17 · 1435 阅读 · 0 评论 -
【推荐系统论文阅读】基于强化学习的推荐模拟用户反馈
Article作者:Minmin Chen∗, Alex Beutel∗, Paul Covington∗, Sagar Jain, Francois Belletti, Ed H. Ch文献题目:针对REINFORCE推荐系统的Top-k Off-Policy Correction文献时间:2020文献链接:摘要随着强化学习(RL)的最新进展,人们对为推荐系统使用 RL 产生了 极大的兴趣。然而,直接训练和评估一种基于新的 RL 的推荐算法,需要在实时系统中收集用户的实时反馈,这很耗时原创 2021-07-24 18:02:55 · 652 阅读 · 3 评论 -
【强化学习文献阅读】DRN:新闻推荐的深度强化学习框架
Article:作者:文献题目:文献时间:Data:这篇文章的目的:结论:背景介绍:结果:方法:Comments:(一些想法)Why:了解课题背景用于实验设计用于写作模仿(三选一)Summary:(分类)不超过五个字...原创 2021-07-14 22:21:46 · 816 阅读 · 2 评论