强化学习
文章平均质量分 90
记录博主学习RL的知识点
白水baishui
天光乍破
展开
-
基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2
论文:Safe Reinforcement Learning with Linear Function Approximation下载地址:http://proceedings.mlr.press/v139/amani21a/amani21a.pdf会议/年份:PMLR / 2021Word版本下载地址(辛辛苦苦打出来的):本文翻译属于半人工,有错漏请谅解。第 2 节中介绍的 SLUCB-QVI 只能输出确定性策略。 在本节中,我们表明我们的结果可以扩展到随机策略选择的设置,这在实践中可能是可取的。翻译 2022-07-02 14:43:14 · 483 阅读 · 0 评论 -
基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1
论文:Safe Reinforcement Learning with Linear Function Approximation下载地址:http://proceedings.mlr.press/v139/amani21a/amani21a.pdf会议/年份:PMLR / 2021Word版本下载地址(辛辛苦苦打出来的):近年来,强化学习的安全性变得越来越重要。然而,现有的解决方案要么无法严格避免选择不安全的动作,这可能导致安全关键系统的灾难性结果,要么无法为需要学.........翻译 2022-07-02 14:43:28 · 492 阅读 · 0 评论 -
基于强化学习的可解释性推荐 文献三篇
A Reinforcement Learning Framework for Explainable Recommendation. IEEE 2018现在很多推荐模型的机制是复杂且难以解释的,此时需要在对推荐结果进行事后解释,即把推荐模型与解释模型分离开,用单独的模型推荐结果作出解释。本文使用强化学习方法对推荐结果生成解释。在这个可解释框架中,被解释的推荐模型作为环境的一部分,对强化学习方法生成的句子解释进行奖励。框架中有两个智能体与环境交互,第一个智能体根据当前状态生成句子解释,第二个智能体根据第一个原创 2022-03-02 21:41:05 · 1478 阅读 · 0 评论 -
Soft Actor Critic算法论文公式详解
SAC强化学习算法是伯克利大学团队2018年在ICML(International Conference on Machine Learning)上发表的论文,本篇博客来总结一下论文里的公式及其涵义。1. 优化目标J(π)=∑t=0TE(st,at)∼ρπ[r(st,at)+αH(π(⋅∣st))]J(\pi)=\sum_{t=0}^{T}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)+\alpha\mathcal{H}(\pi(·|s_t))]J(π)=t=原创 2021-11-29 13:22:46 · 5680 阅读 · 8 评论 -
Soft Actor-Critic 论文解读
1. 最大熵强化学习框架1.1. 符号1、最大熵马尔科夫决策过程最大熵马尔科夫决策过程定义为:(S,A,p,r)(S,A,p,r)(S,A,p,r)其中,SSS是连续的状态空间;AAA是连续的动作空间;ppp是状态转移概率,表示给定st∈Ss_t\in Sst∈S、at∈Aa_t\in Aat∈A时st+1∈Ss_{t+1}\in Sst+1∈S的概率密度;rrr是状态转移过程中的奖励。2、轨迹分布用ρπ(st)\rho_\pi(s_t)ρπ(st)和ρπ(st,at)\rho_\pi(原创 2021-09-18 13:31:16 · 650 阅读 · 0 评论 -
LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读
Deep Reinforcement Learning for List-wise Recommendations 1. 构建了一个在线的用户-Agent交互环境模拟器,该模拟器适用于模拟在线推荐系统,以在离线的情况下对参数进行预训练和评估; 2. 提出了一个基于深度强化学习推荐框架:LIRD(LIst-wise Recommendation framework based onDeep reinforcement learning),该框架适用于具有大型动态项空间的推荐场景,并可显著地降低计算量;原创 2021-07-24 02:22:38 · 2399 阅读 · 6 评论 -
Slate-based Recommender Systems 论文解读
Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology本博客对SlateQ论文进行了解读,如有错误请评论指正。文章目录1. 论文算法介绍(第四、五章)1.1. SlateQ: 基于强化学习的推荐列表分解技术Sl1.2. 用Q值对推荐列表进行优化1.3. 三种优化方法的比较2. 论文算法的在线实现(第九章)2.1. 两个重要组件2.2..原创 2021-07-16 17:57:18 · 2046 阅读 · 2 评论 -
DQN算法的时间复杂度分析
DQN算法的算法流程如下:时间复杂度:设:Initialize replay memory D\mathcal{D}D to capacity NNN (运行消耗t0t_0t0时间)Initialize action-value function QQQ with random weights (运行消耗t1t_1t1时间)for episode=1,Mepisode=1,Mepisode=1,M do (运行一次平均消耗t2t_{2}t2时间,重复运行MMM次)\qquad Initi原创 2021-05-21 08:17:19 · 5165 阅读 · 3 评论 -
RL真的很简单 手把手带你入门强化学习
文章目录1. 强化学习的应用场景1.1. 四个成熟场景1.2. 几个强化学习仿真环境1.2.1. Gridworld1.2.2. Neural MMOs1.2.3. Lab2. 强化学习的基础知识和常用术语2.1. 强化学习的目的2.2. 强化学习的过程2.3. 两个基本模型2.3.1. 多臂赌博机2.3.2. 马尔科夫决策过程2.4. 常用术语表3. 经典强化学习算法和深度强化学习4. 强化学习的学习资料1. 强化学习的应用场景1.1. 四个成熟场景在入门强化学习之前,我们先来具体的看看,目前强化学原创 2021-04-09 21:46:13 · 8283 阅读 · 10 评论 -
强化学习算法分类汇总
文章目录1. Model-Free 与 Model-Based RL2. Policy-Based 与 Value-Based RL3. Monte-Carlo Update 与 Temporal-Difference Update RL4. On-Policy 与 Off-Policy RL1. Model-Free 与 Model-Based RL根据Agent是否理解其所处的环境,可以将强化学习方法分为:无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based R原创 2021-02-24 22:57:24 · 5063 阅读 · 1 评论 -
深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning深度强化学习的简要概述作者:Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath文章目录摘要 Abstract1. 引言 Introduction2. 奖励驱动行为 Reward-Driven Behavior2.1. 马尔科夫决策过程 Markov Decision Processes2.2. 强化学习的挑翻译 2021-01-28 11:32:30 · 7043 阅读 · 1 评论 -
强化学习——表格法 Tabular Methods
本博客将介绍最简单的表格型方法(tabular methods)来讲解如何使用value-based方法求解强化学习过程。文章目录1. 马尔科夫决策过程 MDP1.1. 基于模型的马尔科夫决策过程 Model-based1.2. 无模型的马尔科夫决策过程 Model-free1.3. 基于模型与无模型的对比2. Q表格 Q-table3. 无模型预测 Model-free Prediction1. 马尔科夫决策过程 MDP强化学习有三个要素:状态、动作和奖励。强化学习Agent跟环境是一步一步交互.原创 2021-01-01 20:32:37 · 2382 阅读 · 0 评论 -
强化学习——马尔科夫决策过程 MDP
文章目录1. 马尔科夫过程 Markov Process,MP1.1. 马尔科夫性质 Markov Property1.2. 马尔科夫链 Markov Chain2. 马尔科夫反馈过程 Markov Reward Process,MRP3. 马尔科夫决策过程 Markov Decision Process,MDP马尔可夫决策过程是强化学习里面的一个基本框架,在马尔可夫决策过程的定义中,Agent所处的环境是 Fully Observable ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,这原创 2020-11-29 12:22:46 · 3759 阅读 · 2 评论 -
强化学习——强化学习概述
本篇博客是对强化学习的基本概念进行解释,无深入的算法推导文章目录1.强化学习 Reinforcement Learning1.1. 强化学习的目的1.2. 强化学习的过程1.3. 强化学习的特点2. 序列决策过程 Sequential Decision Making2.1. 智能体(Agent)与动作空间(Action Spaces)2.1.1. 智能体 Agent2.1.1.1. 策略函数2.1.1.2. 价值函数2.1.1.3. 模型2.1.1.4. 智能体的分类2.1.2. 动作空间 Actio.原创 2020-11-20 20:12:55 · 1830 阅读 · 2 评论