Reinforcement learning with action-derived rewards for chemotherapy and clinical trial dosing regime

最新推荐文章于 2022-03-21 19:54:25 发布

卉卉卉大爷

最新推荐文章于 2022-03-21 19:54:25 发布

阅读量302

点赞数

分类专栏： RL给药强化学习文章标签：人工智能

本文链接：https://blog.csdn.net/sinat_37422398/article/details/108659906

版权

强化学习同时被 2 个专栏收录

18 篇文章 4 订阅

订阅专栏

RL给药

5 篇文章 0 订阅

订阅专栏

斯坦福大学 2018年医学健康机器学习大会

$\qquad$ 该模型可以使给药方案毒性更小，但仍然有效。该模型以“自主学习”机器学习技术为动力，研究目前使用的治疗方案，并反复调整剂量。最终，找到一个最佳的治疗方案，可以尽可能降低毒性和剂量，而且仍然能够将肿瘤缩小到与传统治疗方案相当的程度。

$\qquad$ RL模型用于胶质母细胞瘤的治疗，该治疗方案为替莫唑胺( TMZ )，普鲁卡因、洛莫司汀和长春新碱( PVC )的联合服药疗法，给药时间长达 数周或数月。

给药方案确立：传统给药方案、临床上使用、基于动物试验和各种临床试验制定。

$\qquad$ 肿瘤学家使用这些既定的方案根据体重来预测患者的给药剂量。当模型探索该方案时，在每个计划的给药间隔里，比如每月一次，会先决定其中的一个动作。首先，它可以启动或停止一个剂量。如果确定给药，会决定是否需要给足所有剂量，或者仅仅一部分剂量就足够了。在每一个动作中，都会查验另一个临床模型——通常用于预测肿瘤因治疗而带来的体积变化——来看看这个动作是否会缩小平均肿瘤直径。如果是的话，这个模型会得到奖励。
$\qquad$ 需要确保模型不仅仅为了最大疗效而给出最大的剂量。所以 当模型选择给予全部剂量的时候，会受到惩罚。是非传统的RL模型，它将行动(剂量)的潜在负面后果与结果(肿瘤减小)进行权衡。传统的RL模型致力于单一结果，例如为了赢得一场比赛，将采取一切使结果最大化的行动。这个模型在每一个动作中都有灵活性，它可以找到一种剂量，这种剂量不一定能独立的最大限度地减少肿瘤体积，但能在最大限度地减少肿瘤体积和低毒性之间达到完美的平衡。他补充说，这种技术在医学和临床试验中有多种应用，在这些领域，治疗方法应该被规范，以防止有害的副作用产生。

最佳方案

$\qquad$ 研究人员在50名病人身上训练了这个模型，这些病人是从先前接受过传统治疗方法的胶质母细胞瘤病人的大型数据库中随机挑选出来的。对于每个病人，该模型进行了大约20，000次试错测试。训练完成后，该模型学习最佳方案的参数。当应用于新的病人时，使用这些参数，并根据研究人员要求的各种限制来制定新的方案。
$\qquad$ 研究人员随后在50名新的模拟患者身上测试了该模型，并将结果与那些使用了TMZ和PVC的常规治疗方案的病人进行了比较。当没有剂量惩罚时，该模型设计了和人类专家几乎相同的方案。然而，考虑小剂量和大剂量的惩罚时，它大大降低了剂量的频率和效力，同时也减少了肿瘤的大小。
$\qquad$ 研究人员 还设计了一个模型来单独治疗每个病人，也可以对一组病人进行治疗，并取得了类似的结果。按照已有的方法整个患者群体都是使用了相同的给药方案，但是肿瘤的大小、病史、基因谱和生物标记物的差异都会影响患者的治疗方案。Shah说，在传统的临床试验设计和其他治疗中，这些变量没有被考虑在内，这通常会导致在大范围病人中对治疗效果反应不佳。
$\qquad$ “我们不断的优化模型，来给不同的患者给出个性化的用药方案。模型可以给这个人四分之一剂量，给那个人一半剂量，或许那个病人不需要服药了。这是这项工作中最激动人心的部分，通过使用非正统的机器学习架构进行一人试验来产生精确的基于药物的治疗。”Shahs说。
$\qquad$ 研究人员表示，该模型比传统的靠眼睛观察来给药、观察患者反应然后做出相应调整的方法有了重大飞跃。人不具备机器查看大量数据后所获得的深度感知，所以人类来处理的的话，过程是缓慢、乏味且不精确的。让计算机在数据中寻找模式（让人来做的话会花费大量时间来筛选），并使用这些模式来寻找最佳剂量。”

2.2 Reinforcement learning with longitudinal health data

$\qquad$ 在强化学习公式中，每个时间步长的当前状态会变化为所有可能的下一个状态之一。Deep RL 运行个体状态在维度上有很丰富的信息，并且很多领域关注高位可视化数据（high-dimensional visual data）。在健康方面，长期以来对电子健康记录和重症监护数据的干预均采用MDP进行表示。

2.3 Dosing and eﬃcacy for chemotherapy clinical trials and TGI models 化疗临床试验的给药和疗效、TGI模型

$\qquad$ Phase I clinical trials 旨在评估一种新药在人类中的毒性和疗效，以提高生存率和降低疾病指标(Cook et al.， 2015)。剂量范围的研究通常在早期临床前阶段进行，目标是探索药物相关的值，如药物的最大耐受剂量(Scmidt, 1988)。根据 preclinical animal models 和 previous clinical trials，确定相对固定的给药方案，有时在化疗临床试验前进行 TGI 模型优化，进一步评估药物的疗效和有效性(Cook et al.， 2015; Ribba等，2012)。通常根据临床前数据预先计算安全的范围，统一给定给药方案最大剂量浓度、频率。但是这样的剂量方案通常不适用于CRT临床试验(Scmidt, 1988)。个体药物剂量(在某种程度上它们可能因患者而异)可以作为患者体重或体表面积的固定函数来计算，虽然有可能后者高估了药物的功效(Gurney, 2002)。

2.4 Reward functions in open-ended domains

$\qquad$ RL要求存在或构造 a scalar reward function 。许多经典领域，例如格子世界（gridworld），有预定义的目标状态作为其定义的一部分；其它的，例如 the Atari learning environment，有一种score的衡量方法可以被直接用为reward。先前的工作已经研究了 reward shaping，或者用 modiﬁed reward functions 学习，但这一方法假设先前存在的外部奖赏是可以修正的。Inverse RL 的子域从观察到的最优行为推导出 reward functions，但要求存在已知最优行为集合。基于偏好的RL方法（Preference-based RL methods）根据 expert preferences 学习reward functions 。这些方法使得在缺乏 expert preferences 的先验知识的情况下审问和理解 policy 的可能性变得困难。

3.Approach

$\qquad$ 为了描述 RL agent 在 under-constrained or ill-deﬁned external rewards 的环境中的行为，我们利用模拟CRT实验的方法来确定计量方案的代表性问题。

3.1. Environment: TMZ and PCV CRT data

$\qquad$ TGI模型，通常是线性或微分方程系统，用于确定肿瘤随着药物存在而随时间变化的大小，可以用于模拟临床试验数据集。我们选择之前描述的PCV和TMZ化疗对LGGs的常微分方程模型作为RL环境的一部分来模拟数据(Ribba et al.， 2012)。该TGI模型在治疗类型(PCV或TMZ)、剂量周期给药时间、剂量浓度、试验设计参数和患者参数方面具有灵活性。每个病人的纵向MTD轨迹是它唯一的输出。

3.2. RL formulation

$\qquad$ 我们将为模拟TMZ或PCV CRT试验确定最佳剂量的问题建模为MDP，其中环境包含上面描述的TGI模型。在模拟试验的每个时间步骤中，agent 与环境相互作用，反复为每个患者选择给药方案。
$\qquad$ 状态空间是患者最近MTD轨迹或一组患者最近MTD轨迹的函数，而动作空间编码是否在当前时间步进给予PCV或TMZ剂量周期。agent 在病人之间进行学习，选择行动，或者是单独的每次一个病人，或者是针对所有的病人作为一个 group。图1显示了代理与试验环境之间的关系。
$\qquad$ State space: agent的状态空间是 patient’s recent MTD trajectory 的一个连续函数的上域。我们使用 double deep Q-learning 对这样的状态空间进行编码和学习(Van Hasselt et al.， 2016)。网络有两个隐藏层，第一个隐藏层有32个节点，第二个隐藏层有64个节点，然后是一个输出层，其节点数量与可能的动作相同。在每个隐含层后使用 Rectiﬁed linear unit activation functions。The state 包含了当前月份信息，服从马尔可夫假设。网络的输入是当前患者最近的MTD轨迹或一组患者的MTD轨迹的样本。在最初的优化实验中，我们根据经验确定了一个10个月的窗口，以在不耗费太太太多训练时间的情况下进行学习。具有更多样化的模拟患者参数分布的试验可能需要更大的时间窗来确定当前状态。
$\qquad$ Action space: agent 负责在模拟试验过程中选择患者的给药方案。我们将可能的给药方案进行离散化，以形成一个离散化的行动空间，从而为每个患者提供足够大的可选择的状态空间而且不难处理。在每个时间步骤，药剂可以选择开始一个固定持续时间的剂量周期或停止剂量。剂量周期只能以相应的专家试验确定的频率开始(Peyre等，2010年; Ricard等，2007)。在固定浓度实验中，浓度的选择被限制为全浓度；而在可变浓度实验中可选浓度为最大允许剂量的25%、50%、75%和100%。
$\qquad$ Transition function: 状态间的转换是通过向TGI模型环境输入 patient parameters 和 next dose 确定地计算出来的。在一些实验中，我们对每个病人可以使用的药物总量设定了上限。如果药剂试图给病人的剂量一旦达到上限，则状态转变为没有给药。
$\qquad$ Reward functions: 临床试验环境提供的唯一信息是 MTD变化趋势，因此，如果没有患者其他outcomes的可替代信息，奖励必须考虑MTD。在所有的实验中，MTD reduction 都是通过 reward 的激励。MTD减小则获得正奖励，MTD增加则获得负奖励。使MTD减小的临床目标通过每一次 agent 选择一个 action 后的一个 smaller linear rewards 激励。在实验设计中，除了MTD reduction，不同剂量的惩罚也被用于 reward设计中。对于 terminal MTD reward 可能的 penalties 可大可小。我们还做了对比试验——没有 dose penalty，来找到一个最优的减小MTD的给药方案。每一时间步 $t$ 和后序时间步 $t^{'}$ 的 reward function 如下所示：
$R=c(MTD_t-MTD_{t'})-penalty \cdot concentration$
$\qquad$ 其中， $c o n c e n t r a t i o n$ 是 $t$ 时刻给予的单位剂量的百分比（未给予即为0）。ﬁnal episodic reward 的形式比较小，但是通过比较初始观测值和最终观测值采用了longer view：
$R_{final}=c_{final}(MTD_{initial}-MTD_{final})$
$\qquad$ 在实践中， $c$ 被设置为1, $c_{final}$ 被设置为10。在初始优化实验后，相对剂量惩罚的绝对大小设置为：对于TMZ，较小处罚为1，较大处罚为5，对于PCV，较小处罚为1，较大处罚为10。这些值对应于有价值的一个治疗周期——可以使得 MTD reduction。

3.3. Simulated trial parameters

$\qquad$ 试验采用 50 例模拟患者，初始参数 从之前 reported 的患者参数的 log-normal distributions 中采样得到。(Ribba et al.， 2012)。每个 learning episode 都进行相同固定时间，每一 learning episode 都以相同的 initial patient parameters 开始。每个学习实验最多运行20,000 episodes，这是以经验设置的时间，足够可以收敛。学习结束后，学习到的 policy 被应用于同样的50名患者。图2显示了不同试验设计参数下专家和学习的政策对患者的representative applications。
$\qquad$ TMZ（temozolomide）： 剂量周期可每个月一次，最多30个周期，最后在试验剂量给药部分的最后一个月后一年进行观察。剂量周期有固定的持续时间。大多数实验的剂量参数固定在连续5天给予 $200 mg/m^2/d$ TMZ，与专家TMZ试验中探索得到的固定剂量最接近(Ricard等，2007)。在可变剂量浓度实验中，可给予每5天给予50、100、150和200 $mg/m^2/d$ 的TMZ。（就是每个月一个周期，一个周期为连续的5天，这5天中每天 TMZ 剂量为 $200 mg/m^2/d$ ）
$\qquad$ PCV：（procarbazine, 1-(2-chloroethyl)-3-cyclohexyl-l-nitrosourea, and vincristine (PCV)）剂量周期可每6周实施一次，最多6个周期，并在试验剂量给药部分最后一个月后一年进行最终观察。剂量周期有固定的持续时间。剂量周期第1天 $110 mg/m^2$ CCNU，第8-21天 $160 mg/m^2$ 的 procarbazine ，第8、29天 $1.4 mg/m^2$ 的 vincristine，这种用药剂量与固定剂量专家PCV试验相同(Peyre et al ., 2010)。在不同剂量浓度的实验中，所有药物都可以在25%、50%、75%或全部浓度下使用。
（每6周一个周期，最多6个周期，剂量周期第1天 $110 mg/m^2$ CCNU，第8-21天 $160 mg/m^2$ 的 procarbazine ，第8、29天 $1.4 mg/m^2$ 的 vincristine）

3.4. Data analysis and evaluation

$\qquad$ 我们将我们了解到的给药政策与基于 TGI 模型的 TMZ 和 PCV 临床试验给药方案进行了比较(Ricard et al.， 2007; Peyre等人，2010年; Ribba等，2012)。令人感兴趣的是与人类专家指导的TMZ和PCV试验相比， RL agent 给出的剂量周期减少，并且MTD平均减少百分比较大。我们还比较了每次模拟试验的用药总量和各剂量惩罚和各试验设计参数的MTD减少百分比。

4. Results

$\qquad$ 我们对不同的参数组合进行了三个基本实验，以探索在不同主体灵活性下日益受限的奖励结构的效果。一组模拟实验采用TMZ处理，另一组采用PCV处理。对于两种治疗方法，我们进行了如下实验：
a)制剂能够独立治疗不同的模拟患者(称为基于患者的实验 patient-based experiments);
b)制剂必须在每个时间步用相同剂量治疗所有模拟患者(称为基于试验的实验 trial-based experiments)。
$\qquad$ 另一组实验允许药剂在每个时间步给予：
a)固定单位剂量的TMZ或PCV,
b)单位TMZ或PCV剂量s浓度的25%、50%、75%和100%。
$\qquad$ 对于TMZ和PCV实验，agent 总是可以选择在每个时间步不给剂量。表1显示了三种 action-penalty reward functions 的治疗、允许剂量浓度和个性化的组合。表1还比较了在相同分布和试验设计参数相似的情况下，学习政策和专家政策对患者MTD降低的平均百分比
在这里插入图片描述