目录
摘要
关键词
方法
探头导航的强化学习
状态State
动作Action
奖励Reward
终止条件Termination conditions:
信心感知智能体
Deep Q-Network训练
Deep Q-Learning
实施细节
仿真设置
博文相关链接
REFERENCES
通过深度强化学习实现超声探头向标准扫描平面的自主导航[ICRA 2021] | SonoRL | 强化学习、探针导航、信心感知智能体、CNN、SP 定位 |
摘要
提出了一个基于实时超声图像反馈、自动控制虚拟探头的6-DOF姿态,导航到标准扫描平面。
提出了基于置信度的方法,对RL框架中的图像质量优化进行编码,以提高导航性能。
视频演示:【ICRA 2021论文讲解】可模拟B超医生检查手法、完成自主超声探头导航的强化学习agent:SonoRL_哔哩哔哩_bilibili
gif演示:
在该方法中引入图像质量优化可以有效地提高导航性能。
关键词
图像的解释性、探头的精确定位可视化
图1
在每个时间步,使用当前探针姿态获取二维图像,
并作为深度Q network的输入
从与探针的5-DOF姿态相关的10个动作中选择最佳的运动动作,
其中1个DOF用于跟踪患者表面
置信图是从超声图像中计算出来的,以估计图像质量,
奖励函数鼓励在导航过程中改善位置、方向和图像质量。
方法
探头导航的强化学习
虚拟患者是一个重建的3D体积V,它覆盖了患者感兴趣的区域。
将虚拟探头设置为常用的二维探头,视场为h×w。
状态State
状态=探头的6-DOF姿态+外部环境
探针视场为h×w。
在时间步长t时,探针{P}相对于世界坐标系的6-DOF姿态可以用空间变换矩阵来描述,它唯一地决定了探针的位置和方向qt=[qx,qy,qz,qw](用四元数表示)。
如图所示,假设探针的yz平面与图像平面对齐,则可以从患者It←样本(V,pt,qt)中采样使用当前探针姿态获得的大小为×的二维US图像。
目标探针姿态为(pg、qg),对应于标准平面图像Ig←样本(V、pg、qg)。
我们认为视觉导航任务是空间观察到的,其中目标和探测姿态在世界坐标系中是不可观测的,agent只能观察所获得的超声图像。
一组最近的图像序列被堆叠在一起,作为状态st:=[It−m+1,···,It],以考虑动态信息[22]。
动作Action
动作=x和y 轴在水平面上平移以及围绕探针的三个轴的旋转
基于时间步长t的观察,代理执行其策略选择的操作。基本上,我们将导航动作定义为探测帧中的转换操作符,它将当前探测姿态转换为新的姿态
与代表世界坐标系中动作的[20][21]不同,我们采用了以探针为中心的动作参数化来放松对患者在世界中实际姿势的限制。
我们只要求患者的冠状面大致平行于水平面({W}的xy面)。
如图所示,使用10个与5个自由度相关的离散动作,即4个动作沿探针的x、y轴平移一定距离,6个动作分别围绕探针的x、y、z轴旋转一定角度。
由于我们使用探针的高度来跟踪患者表面(这将在3中解释),我们稍微修改了4个平移运动动作,以沿探针的x,y轴在水平面上的x0,y0投影平移。
与[11][12]类似,我们使用分层动作步骤以从粗到细的方式搜索平面。
具体来说,总共使用了5个步长。动作步骤初始化为,
并使用缓冲区存储30个历史姿态。
如果历史姿态之间的3个成对欧氏距离小于阈值0.01,则认为代理已经收敛到一个姿态,动作步骤将减少1个单位,直到它变为零。
为此,我们首先使用(1)更新探针的水平位置(px,py),并使用探针的z坐标跟踪患者表面pz←←(px,py),如图1 (d).所示为了提取曲面方程z=曲面(x,y),对于体积V中的每一对(x,y),我们将曲面点近似为具有最大=坐标的灰度值不为零的点。请注意,在我们的模拟中,这种基于强度的方法仅用于估计患者表面。在实际应用中,可以根据RGB-D相机[5][6]等外部传感器获得的数据实时提取患者表面。第二,在(1)给出新的探头的方向(1)后,探头的倾斜角度(即探头zˆp的z轴与{W}的−z方向之间的角度)是β=arccos(zˆp,[0,0,−1]T)=arccos(−WP Tt+1(3,3))。我们限制倾斜角度小于30◦。如果为β>30◦,则探测方向将不被更新。在上述限制下获得新的探针姿态pt+1、qt+1后,可以获得新的美国图像It+1,并将观测结果更新为st+1。
奖励Reward
奖励=位置、方向、图像质量。
在我们的探测导航任务中,奖励功能应该被设计为鼓励agent向目标前进。而不是简单地将行动的结果分类为更接近或更远离目标,并分配相应的奖励[11][20][21],我们设计的奖励函数与数量成比例的姿态改进。在时间步长t,可以分别测量到目标的距离:
其中,dt为探针当前位置与目标之间的欧氏距离,θt为从当前探针方向旋转到目标方向所需的最小角度。然后,将步长归一化后的姿态改进为
此外,我们为任务完成分配了高奖励(+10)(dt≤1mm和θt≤1◦),并根据环境的限制添加了一些惩罚。如果该动作导致探头β>30◦的倾斜角度,则代理将受到−0.5的惩罚。如果探头移动到患者之外(患者中非零灰度值的像素比例小于30%),代理将得到−1的惩罚。综上所述,奖励功能(没有信心改善)被定义为:
终止条件Termination conditions:
在训练过程中,我们在以下情况下终止一个发作:
a)达到目标
b)步数超过最大限制
c)动作步骤减少到零
d)探针移出患者。
在测试过程中,由于没有目标的真实位置,只使用终止条件b、c、d。
信心感知智能体
临床超声检查中,超声医生在寻找正确的成像平面时,会不断调整探针以获得清晰的图像,避免可能导致图像质量差的位置。
这促使我们考虑到图像质量对agent的导航性能的影响。
与[6][23]类似,我们使用超声置信度图[13]来评估图像质量,该图基于随机游动框架来估计图像的像素级置信度,如图1 (e)所示。在时间步长t,置信图Ct←conMap(It)由美国图像Ct(i,j)∈[0,1]计算出来。设S表示图像中的感兴趣区域(ROI),表示图像的质量,它可以用平均ROI置信度来表示
采取行动后图像质量的提高可以用来表示。我们假设,鼓励图像质量的提高,可以帮助代理学习更好的导航策略。这已被经验验证
第四节-c节的实验结果。因此,我们在奖励函数中引入了一个信心感知的辅助词,来编码学习过程中图像质量的优化。如图1 (f)所示,修正后的信心感知主体的奖励函数考虑了位置、方向和图像质量的改善
Deep Q-Network训练
Deep Q-Learning
在RL框架中,代理学习最大化未来奖励的折扣和,
其中γ∈(0,1)是一个折扣因子,T是事件终止时的时间步长。
最优策略π∗:st7→at是最大化预期收益
其中,最优状态动作值函数Q∗(s,a)定义为任何策略后的最大期望回报
深度Q学习算法[22]使用深度神经网络逼近q函数,并利用经验重放和目标网络技术的时间差法对网络进行训练。我们实现了深度量子学习算法,并针对我们的应用程序进行了少量的修改。我们将我们的基于DQN的RL框架称为SonoRL,这在算法1中概述。q网络对由专家策略生成的一些演示轨迹进行了预训练,该策略选择动作来最大限度地提高一步姿态改进∆d+∆θ(第1-3行)。随后,通过与ε贪婪策略的环境交互,用自生成的经验对网络进行训练(第4-29行)。使用了两种不同的代理,即SonoRL w/ conf和SonoRL w/o conf,它们使用不同的奖励功能(第16行)。
实施细节
(详细结果见论文)
我们采用最初提出的用于美国标准平面检测的SonoNet-16 [8]架构作为我们的q-网络模型,并去除最终的softmax层(见图1 (b))。
使用Adam优化器[24]对网络每10个交互步进行训练,batch size =32,每1k步更新目标网络。
折扣系数γ为0.9。
在前100k交互步骤中,勘探速率ε从0.5到0.1呈线性衰减,并在其余步骤中保持不变。
体验重放内存的容量为100k,用5k的演示数据进行初始化。
在训练前阶段,收集100k的演示经验,网络更新10k步,学习率为0.01。
在强化学习过程中,前40k训练步的学习率为0.01,后40k步设置为0.001,后30k步设置为5e-4,其余步骤设置为1e-4。
有置信度优化和无置信度优化的SonoRL代理分别被称为SonoRL w/ conf和SonoRL w/o conf。每个模型分别在患者内和患者间的设置中分别对160k和200k的迭代进行了优化,以实现稳定的性能。
尽管在奖励功能中只使用了∆d+∆θ(4),但agent在逐渐学习正确导航探针时,也隐式地学习了增加∆c。
两种药物的定量评估对24个随机测试用例进行,包括对每个虚拟患者进行3个导航测试。我们比较两个agent的性能和观察者错误的人类专家在表我指标包括平均姿态改进每步(∆d+∆θ),最终的姿态误差,结构相似性(SSIM)[27]最终平面图像和目标图像,成功率和平均的步数。如果最终的姿态误差小于10mm/10◦,则认为导航成功。
没有conf代理的SonoRL大大减少了前10步的位置误差。但是,由于agent没有意识到图像质量的下降,它盲目地选择动作来减少姿态误差,并导航到图像质量较差的位置(步骤19,c = 0.52)。在其余的步骤中,代理被卡在这个位置,直到导航结束(步骤43),并且无法达到目标。
相比之下,SonoRL w/ conf代理在前18步中调整其方向,以改善姿态和图像质量。然后,代理根据高质量的图像在步骤19-58中逐渐接近目标,并在剩下的21个步骤中进一步微调其姿态。由于信心感知代理在决策时同时考虑了距离切换和图像质量,它可能不会选择最聚合的动作来实现目标,但会在导航过程中小心地避免糟糕的声学窗口。因此,最终导航时间相对较长,轨迹呈现迂回状态(见图4 (b))。然而,该策略由于获得的图像清晰,并包含解剖结构的关键信息,以指导导航,从而使代理更稳定地接近目标。
仿真设置
我们用Python用SonoRL算法构建了一个超声探测导航的模拟环境。在每个时间步长,agent观察大小为150×150的图像,并将4个最近帧作为状态。
手动选择ROI,大小为110×90。
在每一事件中,探头的水平位置随机初始化在中心区域{(x,y): x∼U(0.3W,0.7W),y∼U(0.2L,0.8L)),其中L,W为数据体的长度和宽度,探头的初始z坐标由提取的表面。探针的初始z轴与世界帧的−z方向对齐,并且探针围绕其z轴随机旋转η∼U(0,360◦)}。每集的最大步数被限制在120步以内
博文相关链接
论文作者-阴影感知双agent框架版本
识别、提取三维超声中标准平面的总结+论文+代码合集_luemeon的博客-CSDN博客
REFERENCES
[1] K. K. Shung, “Diagnostic ultrasound: Past, present, and future,”
J Med
Biol Eng
, vol. 31, no. 6, pp. 371–4, 2011.
[2] G. Brown, “Work related musculoskeletal disorders in sonographers,”
BMUS Bulletin
, vol. 11, no. 3, pp. 6–13, 2003.
[3] M. Muir, P. Hrynkow, R. Chase, D. Boyce, and D. Mclean, “The
nature, cause, and extent of occupational musculoskeletal injuries
among sonographers: recommendations for treatment and prevention,”
Journal of Diagnostic Medical Sonography
, vol. 20, no. 5, pp. 317–
325, 2004.
[4] A. S. B. Mustafa, T. Ishii, Y. Matsunaga, R. Nakadate, H. Ishii,
K. Ogawa, A. Saito, M. Sugawara, K. Niki, and A. Takanishi,
“Development of robotic system for autonomous liver screening using
ultrasound scanning device,” in
2013 IEEE International Conference
on Robotics and Biomimetics (ROBIO)
. IEEE, 2013, pp. 804–809.
[5] C. Hennersperger, B. Fuerst, S. Virga, O. Zettinig, B. Frisch, T. Neff,
and N. Navab, “Towards mri-based autonomous robotic us acquisi
tions: a fifirst feasibility study,”
IEEE transactions on medical imaging
,
vol. 36, no. 2, pp. 538–548, 2016.
[6] S. Virga, O. Zettinig, M. Esposito, K. Pfifister, B. Frisch, T. Neff,
N. Navab, and C. Hennersperger, “Automatic force-compliant robotic
ultrasound screening of abdominal aortic aneurysms,” in
2016
IEEE/RSJ International Conference on Intelligent Robots and Systems
(IROS)
. IEEE, 2016, pp. 508–513.
[7] Q. Huang, J. Lan, and X. Li, “Robotic arm based automatic ultra
sound scanning for three-dimensional imaging,”
IEEE Transactions
on Industrial Informatics
, vol. 15, no. 2, pp. 1173–1182, 2018.
[8] C. F. Baumgartner, K. Kamnitsas, J. Matthew, T. P. Fletcher, S. Smith,
L. M. Koch, B. Kainz, and D. Rueckert, “Sononet: real-time detection
and localisation of fetal standard scan planes in freehand ultrasound,”
IEEE transactions on medical imaging
, vol. 36, no. 11, pp. 2204–2215,
2017.
[9] M. K. Karmakar and K. J. Chin,
Spinal Sonography and
Applications of Ultrasound for Central Neuraxial Blocks
. New
York, NY: McGraw-Hill Education, 2017. [Online]. Available:
accessanesthesiology.mhmedical.com/content.aspx?aid=1141735352
[10] K. Li, Y. Xu, J. Wang, and M. Q.-H. Meng, “SARL
∗
: Deep rein
forcement learning based human-aware navigation for mobile robot
in indoor environments,” in
2019 IEEE International Conference on
Robotics and Biomimetics (ROBIO)
. IEEE, 2019, pp. 688–694.
[11] A. Alansary, L. Le Folgoc, G. Vaillant, O. Oktay, Y. Li, W. Bai,
J. Passerat-Palmbach, R. Guerrero, K. Kamnitsas, B. Hou
et al.
, “Au
tomatic view planning with multi-scale deep reinforcement learning
agents,” in
International Conference on Medical Image Computing
and Computer-Assisted Intervention
. Springer, 2018, pp. 277–285.
[12] A. Alansary, O. Oktay, Y. Li, L. Le Folgoc, B. Hou, G. Vaillant,
K. Kamnitsas, A. Vlontzos, B. Glocker, B. Kainz
et al.
, “Evaluating
reinforcement learning agents for anatomical landmark detection,”
Medical image analysis
, vol. 53, pp. 156–164, 2019.
[13] A. Karamalis, W. Wein, T. Klein, and N. Navab, “Ultrasound confifi-
dence maps using random walks,”
Medical image analysis
, vol. 16,
no. 6, pp. 1101–1112, 2012.
[14] A. Schmidt-Richberg, N. Schadewaldt, T. Klinder, M. Lenga,
R. Trahms, E. Canfifield, D. Roundhill, and C. Lorenz, “Offset regres
sion networks for view plane estimation in 3d fetal ultrasound,” in
Medical Imaging 2019: Image Processing
, vol. 10949. International
Society for Optics and Photonics, 2019, p. 109493K.
[15] Y. Li, B. Khanal, B. Hou, A. Alansary, J. J. Cerrolaza, M. Sinclair,
J. Matthew, C. Gupta, C. Knight, B. Kainz
et al.
, “Standard plane
detection in 3d fetal ultrasound using an iterative transformation
network,” in
International Conference on Medical Image Computing
and Computer-Assisted Intervention
. Springer, 2018, pp. 392–400.
[16] H. Dou, X. Yang, J. Qian, W. Xue, H. Qin, X. Wang, L. Yu, S. Wang,
Y. Xiong, P.-A. Heng
et al.
, “Agent with warm start and active
termination for plane localization in 3d ultrasound,” in
International
Conference on Medical Image Computing and Computer-Assisted
Intervention
. Springer, 2019, pp. 290–298.
[17] M. Burke, K. Lu, D. Angelov, A. Strai
ˇ
zys, C. Innes, K. Subr, and
S. Ramamoorthy, “Learning robotic ultrasound scanning using proba
bilistic temporal ranking,”
arXiv preprint arXiv:2002.01240
, 2020.
[18] R. Droste, L. Drukker, A. T. Papageorghiou, and J. A. Noble,
“Automatic probe movement guidance for freehand obstetric ultra
sound,” in
International Conference on Medical Image Computing and
Computer-Assisted Intervention
. Springer, 2020, pp. 583–592.
[19] P. Jarosik and M. Lewandowski, “Automatic ultrasound guidance
based on deep reinforcement learning,” in
2019 IEEE International
Ultrasonics Symposium (IUS)
. IEEE, 2019, pp. 475–478.
[20] F. Milletari, V. Birodkar, and M. Sofka, “Straight to the point:
reinforcement learning for user guidance in ultrasound,” in
Smart
Ultrasound Imaging and Perinatal, Preterm and Paediatric Image
Analysis
. Springer, 2019, pp. 3–10.
[21] H. Hase, M. F. Azampour, M. Tirindelli, M. Paschali, W. Simson,
E. Fatemizadeh, and N. Navab, “Ultrasound-guided robotic navigation
with deep reinforcement learning,”
arXiv preprint arXiv:2003.13321
,
2020.
[22] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G.
Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski
et al.
, “Human-level control through deep reinforcement learning,”
nature
, vol. 518, no. 7540, pp. 529–533, 2015.
[23] P. Chatelain, A. Krupa, and N. Navab, “Confifidence-driven control of
an ultrasound probe,”
IEEE Transactions on Robotics
, vol. 33, no. 6,
pp. 1410–1424, 2017.
[24] D. P. Kingma and J. Ba, “Adam: A method for stochastic optimiza
tion,”
arXiv preprint arXiv:1412.6980
, 2014.
[25] A. Fedorov, R. Beichel, J. Kalpathy-Cramer, J. Finet, J.-C. Fillion
Robin, S. Pujol, C. Bauer, D. Jennings, F. Fennessy, M. Sonka
et al.
,
“3d slicer as an image computing platform for the quantitative imaging
network,”
Magnetic resonance imaging
, vol. 30, no. 9, pp. 1323–1341,
2012.
[26] Q.-H. Huang, Y.-P. Zheng, M.-H. Lu, and Z. Chi, “Development of
a portable 3d ultrasound imaging system for musculoskeletal tissues,”
Ultrasonics
, vol. 43, no. 3, pp. 153–163, 2005.
[27] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image
quality assessment: from error visibility to structural similarity,”
IEEE
transactions on image processing
, vol. 13, no. 4, pp. 600–612, 2004.
[28] L. Lindenroth, R. J. Housden, S. Wang, J. Back, K. Rhode, and
H. Liu, “Design and integration of a parallel, soft robotic end-effector
for extracorporeal ultrasound,”
IEEE Transactions on Biomedical
Engineering
, 2019.
[29] Y. Xu, K. Li, Z. Zhao, and M. Q.-H. Meng, “A novel system for
closed-loop simultaneous magnetic actuation and localization of wce
based on external sensors and rotating actuation,”
IEEE Transactions
on Automation Science and Engineering
, 2020.
[30] Y. Xu, K. Li, Z. Zhao, and M. Q.-H. Meng, “Improved multiple
objects tracking based autonomous simultaneous magnetic actuation
& localization for wce,” in
2020 IEEE International Conference on
Robotics and Automation (ICRA)
. IEEE, 2020, pp. 5523–5529.