![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 79
卉卉卉大爷
这个作者很懒,什么都没留下…
展开
-
【论文分享】如何完成 Offline RL 的在线部署?工业界应用必不可少!!
1、利用 VAE 的 Log-likelihood 可视化 两个数据集分布之间的差异的trick可以借鉴;2、思路简单易懂、还有效……提出了一个简单的框架,包括balanced replay scheme和pessimistic Q-ensemble scheme,这两个在 offline RL 进行 online 部署的时候回非常有用,尤其是采 pessimistic Q-value 对 novel states 进行评价。原创 2022-10-13 00:18:55 · 537 阅读 · 1 评论 -
(AAAI 2021)Meta Learning for Causal Direction
参考:https://zhuanlan.zhihu.com/p/352496691?utm_source=wechat_session&utm_medium=social&s_r=0原创 2021-09-25 10:11:19 · 272 阅读 · 0 评论 -
(IJCAI-17)Transfer learning in multi-armed bandits: A causal approach
原创 2021-09-25 10:09:00 · 147 阅读 · 0 评论 -
(ICML 2021)Causal Curiosity: RL Agents Discovering Self-supervised Experiments for Causal Representa
原创 2021-09-25 10:05:24 · 438 阅读 · 1 评论 -
Causal Reasoning from Meta-reinforcement Learning(自用笔记)
Abstractnovel situations:元强化学习框架,agent 在新环境下能够有效The agent can select informative interventions , draw causal inferences from observational data, and make counterfactual predictions .新的探索策略:structured exploration,providing agents with the ability to p原创 2021-08-23 11:53:55 · 707 阅读 · 2 评论 -
Toward a Fully Automated Artificial Pancreas System Using a Bioinspired Reinforcement Learning Desig
Toward a Fully Automated Artificial Pancreas System Using a Bioinspired Reinforcement Learning Design: In Silico Validation1 Introduction1型糖尿病(T1D)是一种以体内缺乏天然胰岛素分泌为特征的代谢性疾病。患有T1D的人需要注射外部胰岛素 来调节血糖(BG)的浓度。一个 人工胰腺(AP)系统 是一种值得注意的血糖管理治疗方法。人工胰腺(AP)系统是一种值得注意的管理血原创 2021-06-26 15:54:31 · 119 阅读 · 0 评论 -
Basal Glucose Control in Type 1 Diabetes using Deep Reinforcement Learning: An In Silico Validation
Abstract\quad 一型糖尿病(T1D)患者需要定期输注外源性胰岛素,以维持其血液中葡萄糖浓度在治疗上足够的范围内。尽管人工胰腺和持续的葡萄糖监测已被证明对实现闭环控制是有效的,但由于葡萄糖动态的高度复杂性和技术的局限性,重大的挑战仍然存在。在这项工作中,我们为单激素(胰岛素)和双激素(胰岛素和胰高血糖素)的输送提出了一个新的深度强化学习模型。特别是,通过双Q-学习与扩张的递归神经网络来开发脱药策略。为了设计和测试的目的,我们采用了FDA认可的UVA/Padova 1型模拟器。首先,我们进行了长期原创 2021-06-24 09:26:55 · 292 阅读 · 1 评论 -
基于模型的强化学习
基于模型的强化学习2020年北京智源大会——更好的环境模型,更好的强化学习2020年北京智源大会——更好的环境模型,更好的强化学习强化学习中 Model 指的是环境\quad 监督学习中,数据分布是一致的x∽Dx\backsim\mathcal{D}x∽D;强化学习数据分布是不一致的x∽Dπθx\backsim\mathcal{D}^{\pi_\theta}x∽Dπθ,数据来源于当前的策略πθ\pi_\thetaπθ,也就是说,当我们的策略发生变化的时候我们的数据也会发生变化。\quad 强化原创 2021-06-07 21:04:19 · 589 阅读 · 0 评论 -
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
Abstract\quad 深度RL算法需要大量经验才能学习单个任务。原则上,元强化学习(meta-RL)算法使智能体能够从少量经验中学习新技能,但一些主要挑战阻碍了它们的实用性。当前的方法严重依赖于同策经验,从而限制了其采样效率。在适应新任务时,也缺乏推断任务不确定性的机制,从而限制了它们在稀疏奖励问题中的有效性。在本文中,我们通过开发一种异策元RL算法来解决这些挑战,该算法可以分离任务推断和控制。在我们的方法中,我们对隐任务变量执行在线概率滤波,以从少量经验中推断出如何解决新任务。这种概率解释可以进.原创 2021-02-02 08:00:39 · 1512 阅读 · 0 评论 -
汤普森采样(Thompson sampling)
1、Beta分布定义域:[0,1]参数:α,β\alpha,\betaα,β,均为正值参数,又称为形状参数1.1 Beta分布的概率密度函数f(x,α,β)=constant⋅xα−1⋅(1−x)β−1=xα−1(1−x)β−1∫01uα−1(1−u)β−1 du=Γ(α+β)Γ(α)Γ(β)xα−1(1−x)β−1=1B(α,β)xα−1(1−x)β−1f(x,\alpha,\beta) =constant \cdot x^{\alpha-1} \cdot (1-x)^{\beta-1} \\原创 2021-02-02 08:00:10 · 11975 阅读 · 1 评论 -
分层强化学习 Data-Efficient Hierarchical Reinforcement Learning(HIRO)(NeurIPS 2018)
\quad 分层的思想在今年已经延伸到机器学习的各个领域中去,包括NLP 以及很多representataion learning。\quad 近些年,分层强化学习被看作更加复杂环境下的强化学习算法,其主要思想就是将一个大的问题进行分解,思路是依靠一个上层的policy去将整个任务进行分解,然后利用下层的policy去逐步执行。Contribution:1)成功地将 off-policy 应用在 HRL 的 high-level policy 中。2)提出了一种 off-policy correc.原创 2021-01-24 20:49:00 · 1946 阅读 · 2 评论 -
(ICLR 2020)COMPOSING TASK-AGNOSTIC POLICIES WITH DEEP REINFORCEMENT LEARNING
Abstract\quad 构建 intelligent machines 的 关键点之一 在于通过 基本行为(elementary behaviors) 的组合来解决具有挑战性的迁移学习问题。到目前为止,已经有大量的学习特定任务的工作,但是关注 组合necessary, task-agnostic skills来找到新问题的solution 的工作较少。本文提出了一中新的 基于深度强化学习的 skill transfer and composition method ,该方法采用agent的 primi原创 2021-01-24 20:45:42 · 342 阅读 · 1 评论 -
Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记
Abstract\quad Imitation learning 允许 agent 从 demonstrations 中学习 复杂的行为。然而学习一个复杂的视觉任务需要很大的 demonstrations。Meta-imitation learning 可以通过学习类似任务的经验,使 agent 从一个或几个 demonstrations 中学习新任务。在 task ambiguitytask\ ambiguitytask ambiguity 或是 unobserved d原创 2021-01-19 10:31:33 · 409 阅读 · 0 评论 -
An Actor–Critic based controller for glucose regulation in type 1 diabetes
a b s t r a c t\qquad 控制器基于Actor-Critic(AC)算法,受强化学习和最优控制理论(optimal control theory)的启发。控制器的主要特性是:同时调整 胰岛素基础率 the insulin basal rate 和 大剂量 the bolus dose;根据临床规程进行初始化;real-time personalization。\qquad 所提出的方法的有效性利用 开环 和 闭环程序 在 silico 数据集中 adults, adole原创 2020-10-10 08:39:47 · 507 阅读 · 1 评论 -
Basal Glucose Control in Type 1 Diabetes using Deep Reinforcement Learning: An In Silico Validation
Abstract\qquad 1型糖尿病(T1D)患者需要定期外源性输注胰岛素,以维持其血糖浓度在适当的治疗目标范围内。虽然人工胰腺和连续血糖监测在实现闭环控制方面已经被证明是有效的,但由于血糖动力学的高度复杂性和技术的局限性,仍然存在重大挑战。在这项工作中,我们提出了一种新的深度强化学习模型,用于 单激素(胰岛素)和 双激素(胰岛素和胰高血糖素)的给药。特别的,delivery strategies 是用了利用了 dilated recurrent neural networks (DRNN) 的 do原创 2020-10-13 15:30:10 · 635 阅读 · 0 评论 -
(CQL)Conservative Q-Learning for Offline Reinforcement Learning
Abstract\qquad 在大规模、现实世界应用中,强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。Offline RLOffline\; RLOfflineRL 算法旨在利用 previously−collectedpreviously-collectedpreviously−collected、static datasets without further interactionstatic \; datasets\; without \; further \;原创 2020-12-24 21:59:04 · 1586 阅读 · 0 评论 -
Reinforcement learning with action-derived rewards for chemotherapy and clinical trial dosing regime
斯坦福大学 2018年医学健康机器学习大会\qquad该模型可以使给药方案毒性更小,但仍然有效。该模型以“自主学习”机器学习技术为动力,研究目前使用的治疗方案,并反复调整剂量。最终,找到一个最佳的治疗方案,可以尽可能降低毒性和剂量,而且仍然能够将肿瘤缩小到与传统治疗方案相当的程度。\qquadRL模型用于胶质母细胞瘤的治疗,该治疗方案为替莫唑胺( TMZ ),普鲁卡因、洛莫司汀和长春新碱( PVC )的联合服药疗法,给药时间长达 数周或数月。给药方案确立:传统给药方案、临床上使用、基于动物试验和各种临原创 2021-01-19 10:32:38 · 289 阅读 · 0 评论 -
An Optimistic Perspective on Offline Reinforcement Learning(ICML2020)
Abstract\quad 该文章利用了 the DQN replay dataset 研究了Offline RL,该数据集包含了一个 DQN agent 在60款Atari 2600游戏上的 the entire replay experience 。\quad 我们证明了 recent off-policy deep RL 算法,即使仅仅在 replay dataset 上训练,表现也比训练好的 DQN agent 要好。\quad 为了增强 offline setting 的泛化能力,我们提出了原创 2021-01-19 10:31:17 · 732 阅读 · 0 评论