骨龄预测翻译

最新推荐文章于 2024-08-25 08:42:46 发布

heavenpeien

最新推荐文章于 2024-08-25 08:42:46 发布

阅读量2.8k

点赞数 2

文章标签：深度学习骨龄预测

本文提出了一种全自动深度学习管道，用于骨龄预测，该系统包括预处理引擎、检测CNN和分类CNN，实现了在女性和男性队列中90%以上的准确性。研究使用了ImageNet预训练的GoogLeNet模型进行微调，并通过数据增强防止过拟合。系统在临床环境中可提供结构化的放射学报告，提高了骨龄评估的效率和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

跳到主要内容跳至部分

骨骼成熟度通过不连续的阶段进行，这是常规用于儿科的事实，其中骨龄评估（BAAs）与评估内分泌和代谢紊乱的年龄年龄进行比较。自1950年推出以来，虽然它是许多疾病评估的核心，但它们并没有改变，以改善繁琐的过程。在这项研究中，我们提出了一个全自动深度学习管道来分割感兴趣的区域，标准化和预处理输入射线照片，并执行BAA。我们的模型使用ImageNet预培训，微调卷积神经网络（CNN），以便在我们提供的测试图像上为女性和男性队列实现57.32和61.40％的准确性。女性测试X线片在1年内获得90.39％的BAA和98.11％的2年内获得BAA。男性测试X线片在1年内分配94.18％，2年内分配99.00％。使用输入遮挡方法，创建了注意力图，显示训练模型用于执行BAA的特征。这些与人工专家在手动执行BAA时看到的内容相对应。最后，全自动BAA系统作为决策支持系统部署在临床环境中，以比传统方法更快速的解释时间（<2s）更精确和有效的BAAs。

关键词

骨龄结构报告人工神经网络自动测量自动对象检测临床工作流计算机辅助诊断计算机视觉数据采集决策支持数字X射线射线照相术效率分类机器学习人工智能

介绍

骨骼成熟度通过一系列不连续的阶段进行，特别是在手腕和手中。因此，儿科医学使用这种正常的生长进程来确定骨龄并将其与儿童的年龄相关联。如果存在差异，这些有助于进一步诊断评估可能的内分泌或代谢紊乱。或者，这些检查可用于最佳时间干预肢体长度差异。虽然骨龄评估（BAA）是评估许多疾病状态的核心，但自从1950年由Greulich和Pyle [ 1 ]发表开创性地图集以来，BAA的实际过程并没有明显改变从1931年到1942年在俄亥俄州学习儿童。

可以使用Greulich和Pyle（GP）[ 1 ]或Tanner-Whitehouse（TW2）[ 2 ]方法进行BAA。 GP方法将患者的X线片与代表性年龄图谱进行比较，并确定骨龄。 TW2系统基于检查20个特定骨骼的评分系统。在这两种情况下，BAA都需要相当长的时间，并且包含显着的评估者间差异性，当根据患者BAA的变化做出治疗决策时，导致临床挑战。已经尝试通过定义速记方法来更有效地执行BAA来缩短评估过程; 然而，这些仍然依赖于人的解释和参考图谱[ 3 ]。

BAA是自动图像评估的理想目标，因为一项研究中只有少量图像（左手和腕部的一张图像）和相对标准化的报告结果（所有报告均包含具有相对标准化关键字的年代和骨骼年龄，如“骨龄“或”岁“）。这种组合对于机器学习来说是一个吸引人的目标，因为它避免了许多劳动密集型预处理步骤，例如使用自然语言处理（NLP）处理相关结果的放射学报告。

深度学习已被证明是一种广泛的计算机视觉图像任务的强大方法[ 4 ]，导致人们越来越关注使用该技术来替代使用手动制作特征的传统算法。通过使用深度CNN来检测胸部CT上二维斑块的间质性肺病模式[ 5 ]以分割眼底照片上的人眼血管网[ 6 ]，深CNN已被证明是非常成功的，因为它们使得学习具有高度代表性，分层，图像数据的分层抽象[ 7 ]。除了分割和检测任务之外，许多基于深度学习的方法非常适合医学成像中的识别和分类任务[ 8,9 ]。然而，据我们所知，大规模的全自动数据驱动的深度学习方法并没有被引入，以减少人类专家间观察者间的差异，并提高了BAA在任何已发表作品中的工作流程效率。我们提出了一个完全自动化的深度学习平台，使用深度CNN进行BAA检测和分类，部署系统能够自动生成如图1所示的结构化放射报告。

在新窗口中打开图像

数据准备

数据采集

该回顾性研究获得了IRB批准。使用内部报告搜索引擎（Render），在2005年至2015年期间查询使用考试代码“XRBAGE”的所有射线照片和放射学报告。登记号，年龄，性别和放射学报告收集到数据库中。使用开源软件OsiriX，导出与登录号相对应的DICOM图像。我们医院的放射学报告包括病人的年龄和骨龄，参照Greulich和Pyle的标准，第二版[ 1 ]。

数据分类

数据集包括年龄为5-18岁和骨骼成熟（18岁及以上）患者的X线片。在这项研究中，由于两个原因，0-4岁被排除在外。首先，在0-4岁的患者中，仅有少量的X光片（女性298例，男性292例），这显着减少了可用于训练的图像数量。其次，我们机构骨龄评估的绝大部分指标是青春期延迟，身材矮小或性早熟的问题。对于5岁以下的患者，这些检查很少进行。通过确定与骨龄相关的关键词，如“骨龄”和“骨骼”，从放射科医师报告中提取所报告的骨龄。提取的骨龄以年，地板的形式计算，并且按照年份分类为5至18年。骨骼成熟的病例被认为是18年[ 10 ]。对于报告的骨龄在一定范围内的情况，我们将该范围的算术平均值指定为实际骨龄。最初检索的研究总数为女性队列5208人和男性队列5317人。在排除0-4岁和畸形病例（右手，变形图像和不可解释的报告）之后，男性的女性和男性的4047幅X射线照片被标记为骨骼年龄，如图2所示。

在新窗口中打开图像

图2

男性和女性左手X光片的骨龄分布

我们随机选择15％的数据作为验证数据集，15％用作测试数据集。余下的（70％）被用作女性和男性队列的训练数据集。利用验证数据集来调整超参数，以在每个历元期间从多个训练模型中找出最佳模型。使用测试数据集对最佳网络进行评估，以确定最高1级预测是否符合实际情况，是否在1年或2年内。为了进行公平比较，我们对每个测试使用了相同的分割数据集，因为新的随机数据集可能会妨碍公平比较。

预处理引擎

输入DICOM图像在强度，对比度和灰度基础（白色背景和黑色骨骼或黑色背景和白色骨骼）方面差别很大，如图3所示。训练射线照片的这种差异可防止算法学习显着特征。因此，通过消除尽可能多的不必要的噪音，对图像进行标准化的预处理流程对于模型的准确性至关重要。对于这个应用程序来说，骨骼是最重要的特征，因为它们是BAA的核心，所以它们得到了保留和增强。因此，我们提出了一种新颖的预处理引擎，它由检测CNN组成，以识别/分割手部/腕部，并创建相应的掩模，然后是视觉管线，以标准化和最大化图像的不变特征。

在新窗口中打开图像

图4

基于CNN的深度预处理引擎概述，可自动检测手部，生成手部遮罩并将其输入视觉管道以标准化图像，使训练后的自动化BAA模型对输入图像的差异保持不变

正常化

预处理引擎的第一步是在将它们馈送到检测CNN之前，对基于灰度级和图像大小的射线照片进行归一化。一些图像具有白色背景的黑色骨骼，而另一些具有黑色背景的白色骨骼（图3 ）。图像大小从几千到几百像素大不相同。为了归一化不同的灰度基础，我们计算了每幅图像四角的10×10图像块的像素均值，并将其与给定图像分辨率的最大值的一半值进行比较（例如，对于8位解析度）。这有效地确定图像是否具有白色或黑色背景，使我们可以将它们全部归一化为黑色背景。下一步将规格化输入图像的大小。几乎所有的手部X光片都是高度方形的矩形。因此，我们将所有图像的高度调整为512像素，然后通过保留纵横比和使用零填充的组合; 宽度均为512像素，最终创建标准化的512×512图像。我们选择这个尺寸有两个原因：它需要大于神经网络所需的输入尺寸（224×224），这个尺寸是检测CNN性能和预处理速度的最佳平衡。较大的方块以较慢的部署时间为代价提高了检测CNN性能，而较小的方块则加快了测试时间，但它们导致更糟糕的图像预处理。

检测CNN

手部X光片上有五种不同类型的物体：骨骼，组织，背景，准直和注释标记（图3 ）。为了从X光片上分割手部和手腕，我们利用CNN来检测骨骼和组织，构建手部/腕部面罩，并应用视觉管道来标准化图像。如图4所示，通过使用ROI在归一化图像中对五个类别的图像块进行采样。采样的补丁是一个平衡的数据集，每个类别有1 M个样本。我们使用1000个独特的X光片，从训练数据集中随机选择，以生成不同的对象斑块。我们使用LeNet-5 [ 11 ]作为检测CNN的网络拓扑结构，因为网络是一种有效的粗粒度识别明显不同数据集的模型，并用于MNIST数字识别[ 12 ]等应用。另外，网络在部署时需要少量的计算和微不足道的内存空间用于可训练参数。我们使用随机梯度下降（SGD）算法，以0.01个基础学习率的基础学习率为基础，通过基于收敛到功能损失的三个步骤减少了10个因子，对100个时期的采样补丁组进行训练。每班有25％的训练图像作为验证数据集提供，以选择出时期的最佳模型。

在新窗口中打开图像

图3

在这项工作中使用的输入射线照片的例子。所有的图像都有不同的大小，但是为了达到这个数字而调整大小

重建

下一步是构建一个包含手和非手区域的标签图。对于每个输入射线照片，检测系统在整个图像上滑动，采样补丁，并使用训练过的检测CNN记录每个像素的所有分数。根据得分记录，将最高得分类别标记为每个像素。之后，通过将标记为骨和组织类的像素分配给手标签并将其他像素分配给非手标签来构建标签图。

面具生成

大多数标签地图都有明显的手部和非手部类别的分割区域，但是像图4中的例子那样，假阳性区域有时被分配到手部类别。结果，我们提取了最大的连续轮廓，填充它，然后为图4所示的手和手腕创建了一个干净的面罩。

视觉管道

在创建蒙版后，系统将其传递给视觉管线。第一阶段使用蒙版从图像中去除无关的伪像。接下来，分割区域以新图像为中心以消除平移方差。随后，应用对比度增强，去噪和锐化滤波器的直方图均衡来增强骨骼。最终的预处理图像如图4所示。

图像样本补丁大小和步幅选择

预处理性能取决于图像样本补丁的大小和检测系统移动的步幅。我们进行了回归测试，通过比较不同步幅（2,4,8,16）和图像斑点尺寸（16×16,24×24,32×32,40×40,48× 48,56×56,64×64），如图5a所示。对于该实验，从测试数据集中随机选择280张图像代表女性和男性的每类10张图像，以通过计算预测和实际二进制图之间的交叉点相交值（mIoU）的算术平均值来评估预处理引擎的性能。基于图5的结果，32×32图像块大小和4的跨度是具有0.92的mIoU的最优配置。

在新窗口中打开图像

图5

寻找图像补丁大小和步幅的最佳组合，以便在预处理引擎中获得最佳掩膜生成。对于步幅（2,4,8,16）和图像斑块大小（16×16,24×24,32×32,40×40,48×48,56）的所有组合显示超过（mIoU）结果的平均交叉点×56,64×64）。 b代表预测和基本事实二进制映射，其中单个案例的交叉点联合（IoU）方程。通过对所有280个测试案例的IoU值的算术平均值计算mIoU

分类CNN

深CNN由交替的卷积层和池层组成，以从输入图像学习分层的分层和代表性抽象，然后是完全连接的分类层，然后可以利用从较早层提取的特征向量进行训练。他们在许多计算机视觉任务中取得了相当的成功，包括对象分类，检测和语义分割。许多创新的深度神经网络和新颖的训练方法在图像分类任务中表现出色，尤其是在ImageNet竞赛中[ 13,14,15 ]。自然图像分类的快速推进是由于可用的大规模和全面注释的数据集，如ImageNet [ 16 ]。然而，像ImageNet一样在这样的规模和相同的质量注释下获取医学数据集仍然是一个挑战。由于患者隐私条例的限制，医疗数据无法轻易访问，而图像标注需要训练有素的人力专家进行繁琐而费时的工作。医学成像领域中的大多数分类问题都是细粒度识别任务，它们使用局部区分特征对同一类中高度相似的出现物体进行分类。例如，骨骼年龄通过骨骺宽度相对于不同指骨的干骺端，腕骨外观和桡骨或尺骨骺融合的进展来评估，但不通过手和手腕的形状来评估。与基本水平识别相比，子类别识别任务更具挑战性，因为更少的数据和更少的识别特征是可用的[ 17 ]。细粒度识别的一种方法是转换学习。它使用来自大规模数据集的训练有素的低级知识，然后对权重进行微调以使网络专用于目标应用程序。这种方法已被应用于与大规模ImageNet相似的数据集，如牛津花[ 18 ]，加州理工大学鸟类[ 19 ]和狗品种[ 20 ]。尽管医学图像与自然图像有很大不同，但通过使用在大型数据集上训练的通用滤波器库和调整参数以呈现专用于医疗应用的高级特征，转移学习可能是一种可行的解决方案。最近的研究[ 21,22 ]已经证明了通过使用新数据集对几个（或全部）网络层进行微调，从普通图片向医学成像领域转移学习的有效性。

转移学习的最优网络选择

我们考虑了三个高性能CNN，包括AlexNet [ 13 ]，GoogLeNet [ 14 ]和VGG-16 [ 15 ]，作为我们系统的候选人，因为他们在ImageNet大规模视觉识别竞赛（ILSVRC）[ 23 ]中得到验证。幸运的是，Canziani等人。进行了候选网络之间的比较研究。表1中列出了它们之间差异的总结[ 24]。如果准确性是唯一的决定因素，VGG-16是最好的选择，AlexNet是最差的。然而，GoogLeNet利用少25倍的可训练参数来实现与VGG-16相媲美的性能，同时具有更快的推理时间。另外，GoogLeNet是最高效的神经网络[ 24 ]，特别是因为图1和2中描述的初始模块。如图5和图6所示，通过最小化完全连接层的数量，使得网络具有更大的能力来学习分层代表性特征而没有很多可训练参数。

表格1

根据可训练的参数数量，单个推断的计算要求和ImageNet验证数据集中的单作物前1个准确性，对三个候选转移学习网络进行比较

	可训练参数的数量	单个推理所需的操作次数	单作物top 1验证准确性
GoogleNet [ 14 ]	〜5M（1×）	~3 G-ops（1×）	~68.00％
AlexNet [ 13 ]	〜60M（12×）	~2.5 G-ops（0.83×）	~54.50％
VGG-16 [ 15 ]	〜140M（28×）	~32 G-ops（10.6×）	~70.60％

来自Canziani等人进行的比较研究的数字。 [ 24 ]

在新窗口中打开图像

图6

我们用于本研究的 GoogLeNet网络拓扑结构。 b GoogLeNet使用的初始模块包含六个不同内核大小的卷积层和一个池化层。所有结果输出连接成一个输出向量

培训细节

我们从Caffe动物园中检索了一个预训练的GoogLeNet模型[ 25 ]，并将网络细化为医学图像。ImageNet由彩色图像组成，GoogLeNet的第一层过滤器相应地包含三个RGB通道。然而，手部X光片是灰度的，只需要一个通道。因此，我们通过采用预先存在的RGB值的算术方法将滤波器转换为单个通道。我们确认转换的灰度滤波器匹配相同的一般滤波器模式，主要由边缘，角落和斑点提取器组成。使用预训练模型初始化网络后，我们的网络进一步训练，使用SGD对超过100个超级参数的9个不同组合的100个时期进行训练，最小批量为96，包括基础学习率（0.001,0.005,0.01）和伽马值（ 0.1,0.5,0.75），结合动量项0.9和0.005的重量衰减。学习率是一个控制神经网络训练过程中的权重和偏差变化率的超参数，它被伽玛值减少了三个步骤，以确保稳定收敛到损失函数。确定最佳学习率是具有挑战性的，因为它随着数据集和神经网络拓扑的内在因素而变化。为了解决这个问题，我们使用NVIDIA Devbox [ 26 ]对广泛的网格搜索来优化超参数组合，以找到最优的学习速率时间表。

防止过度配合（数据增强）

深度神经网络需要大量的标记训练数据才能实现稳定的收敛和高分类精度。如果训练数据有限，则深层神经网络将会过度拟合，并且不能针对目标应用进行推广。这对于医学成像来说是一个特殊的挑战，因为汇编高质量和注释良好的图像是一项费时费力的过程。因此，使用了几种方法来降低过度拟合的风险。数据增强是一种技术，我们通过几何变换，光度变换，噪声注入和颜色抖动来合成增加训练数据集的大小[ 13 ]，同时保留相同的图像标签。表2详细介绍了用于实时数据增强的几何，对比度和亮度变换以及每种可能的合成图像的数量。利用仿射变换（包括旋转，缩放，剪切和光度变化）来提高网络对几何变体的弹性以及对比度或强度的变化。旋转范围从-30到+30，增量为5°。缩放操作通过以0.01增量乘以0.85-1.0的宽度和以0.01增量乘以0.9-1.0的高度来执行。通过施加从-5到+5的x和y角以1°的增量进行剪切。通过将所有像素乘以从0.9到1.0的范围内的因子并以0.01的增量并添加范围从0到10的整数来调整亮度。对于每次转换，这些转换被随机切换增强。通过使用实时数据增强，可以将单个图像转换为1,107,150,000个图像（= 61 * 150 * 121 * 100）之一，从而防止每个时期的图像重复。这种方法不会增加计算时间或存储量，因为下一次迭代的图像会在CPU上增强，而前一次迭代正在通过GPU进行训练。我们排除了随机横向反转，经常用于自然图像，因为BAA只按照惯例使用左侧X光片。我们也没有进行随机翻译，因为所有的都是在图像预处理阶段。

表2

研究中使用的实时数据增强方法总结

方法	范围	合成图像的数量
回转	-30°≤旋转角度≤30°	61
调整	0.85≤宽度<1.0,0.9≤高度<1.0	150
剪断	-5°≤x角≤5°，-5°≤y角≤5°	121
像素变换	α*像素+_β，（0.9≤α≤1.0,0<β≤10）	100

在训练网络之前，将几何（旋转，调整大小和剪切）和光度转换（对比度和亮度）应用于输入图像，以防止过度拟合

结果

预处理引擎

图7演示了执行图像标准化的预处理引擎的有效性。输入图像之间存在广泛的变化，其中一半图像在黑色背景上具有白色骨骼，可变准直配置以及存在或不存在侧标记。标准化灰度基准和图像大小会在第二行生成图像。第三行给出了用于由第二训练的CNN使用的自动手/腕分割的构造的标签图。但是，标签贴图不能用作分段遮罩，因为频繁出现假正像素，例如在第三行的第二个图像中。这些像素可以通过提取最大轮廓并填充生成的多边形来创建第四行所示的统一遮罩。视觉管线然后可以使用生成的面具分割手和手腕，增强骨骼边缘并对图像进行去噪。该流水线采用来自不同供应商的DICOM对象，外观差异很大，然后在训练和部署之前自动分段，居中并增强图像。

在新窗口中打开图像

图7

预处理的每个阶段的10个示例，如“ 预处理引擎 ”部分中的输入射线照片所述。图像已被转换为正方形以保持一致的布局。 b具有一致的灰度基础和图像大小的标准化图像。c手部（白色）和非手部（黑色）类别的标签贴图。 d生成用于分割的蒙版。 e最终预处理图像。

分类CNN

微调的最佳深度

Tajbakhsh等人 [ 22 ]发现，层次式微调模式可以在医学成像领域中为有限数量的训练数据的给定应用找到最佳性能。早期的图层学习像边缘和角落这样的低级图像特征，而后面的图层学习适用于目标应用的更高级特征[ 22,27 ]。传输学习通常需要将后面的图层微调到特定的数据集，但它可能需要对早期图层进行微调，具体取决于源应用程序和目标应用程序的不同[ 22 ]。为了找到需要调整BAA的最佳层数，我们通过逐步微调从最后一层到第一层的预训练CNN进行了回归测试。另外，CNN从零开始受到随机权重的初始化训练，以确定微调方法是否优于从头开始的训练。为了实现损失函数的稳定收敛，重要的是随着时间的推移退化学习速率。类似于“ 分类CNN”部分，进行网格搜索以找到超参数的最佳组合，以确保最佳训练参数。图8显示了针对预调的CNN的“正确”情况下的“正确”情况下的测试准确性，其中包括实时数据增强，对于从完全连接（fc）到所有层的层进行了微调。在微调测试中确定最佳性能模型的基础学习率为0.005，并且从零开始训练为0.01。如果使用大量学习率训练预训练模型，训练良好的泛型特征将被覆盖，导致模型过度拟合。我们发现所有图层的微调权重是BAA的最佳方案。由于医学图像与自然图像明显不同，因此必须对所有图层进行微调以生成BAA的低级和高级特征。当从头开始训练网络时，很多情况下丢失函数未能收敛，这意味着在数据量较小的情况下，随机加权初始化不是稳定的训练方法。

在新窗口中打开图像

图8

CNN测试的准确性与实时数据增强使用不同风格的培训。 “从零开始训练”方法通过随机权重初始化训练CNN。其他方法通过增量更新每个完全连接（fc）图层的权重从inception5到conv1，对ImageNet预训练CNN进行微调，详见图6

测试精度

女性和男性BAA的四种不同方法的测试准确度详见图9 。第一个模型（M1）是训练有素的CNN，原始手部X线片重新调整到224×224。女性队列的测试准确率为39.06％，男性队列的测试准确率为40.60％。女性和男性X线片的骨龄分别为1年内75.59％和75.54％的时间，2年内分别为90.08％和92.35％。第二个模型（M2）用预处理的图像进行，第三个模型（M3）通过开启实时数据增强来进行，同时从头开始训练网络。随着预处理和增量数据的使用，神经网络泛化得到改善，女性队列的测试准确性增加了33.85％，男性队列的测试准确性增加了34.83％。最后一个模型（M4）是通过打开实时增强功能对经过预处理的图像进行微调的CNN。女性队列的测试准确率为57.32％，男性队列的测试准确率为61.40％。女性X线片的BAA被分配了一年内的基础真相，90.39％的时间和两年内的98.11％。男性X线片的BAA被分配了一年内的实际时间（94.18％）和两年内99.00％的时间。均方根误差（RMSE）女性为0.93年，男性为0.82年，女性为62％，男性为57％，而M1为RMSE。此外，女性队列的平均平均精确度（mAP）为53.3％，男性队列的平均平均精确度（mAP）为55.8％，与女性M1的mAP相比，女性的平均平均精确度（mAP）提高了57.69％，男性提高了72.22％。

在新窗口中打开图像

图9

表现四种不同的方法（M1-M4）训练女性（ a ）和男性（ b ）骨龄评估。 M1从头开始训练CNN，对原始图像进行随机加权初始化，下采样为224×224像素。 M2包含来自自动预处理引擎的图像。 M3除了包含M2之外，还包含用于改善网络泛化的综合生成的图像。 M4在预先处理的图像上对数据增强打开的ImageNet预培训CNN进行微调。 “正确”对应于模型的预测与基本事实相同的情况。 “1年内”和“2年内”包括网络预测分别在1年和2年内的情况。另外，报告了四种不同模型的均方根误差（RMSE）和平均平均精度（mAP），以确定每个模型的强健性和良好表现

可视化

注意地图

尽管在自然图像分类方面他们的表现令人印象深刻，但深层神经网络并不十分清楚。已经提出了几种调查神经网络用于执行分类的方法[ 27,28 ]。我们利用遮挡方法[ 27 ]生成关注图，以发现图像的哪一部分对于细粒度分类具有局部重要性。遮挡方法在图像上迭代地滑动小块，将遮挡的输入图像传递到前向网络，并基于作为遮挡物位置的函数的分类概率的变化来生成二维关注图。只有正确分类的输入图像被选择来确定输入图像的重要区域。在图10中，针对四个主要骨骼发育阶段（青春前期，青春期早中期，青春期后期和青春期后期）产生了代表性的关注图[ 10 ] - 强调图像的重要部分，使神经网络能够表现出色分级分类。婴儿和幼儿类别被排除在外。有趣的是，每个分类的重要区域部分与[ 10 ]中描述的每个类别的目标特征相一致。青春前期注意图（a）侧重于腕骨和中远端指骨。早中期和晚期青春期关注图（b和c）不重视腕骨和更多的指骨，这意味着这些是比腕骨更重要的BAA预测因子。对于青春期后关注地图（d），重要性返回到手腕，其中桡骨和尺骨生物体是最后关闭的。

在新窗口中打开图像

图10

在四个主要骨骼成熟阶段：青春期前，青春期早中期，青春期后期和青春期后阶段，女性（上排）和男性（下排）注意力图的示例[ 10 ]。婴儿和幼儿类别被排除在外。仔细选择了六个代表性的关注地图来代表每个类别的总趋势。青春期前：女性2-7岁，男性3-9岁。 b青春期早中期：女性7-13岁，男性9-14岁。 c青春期后期：女性13-15岁，男性14-16岁。 d青春期后：15岁以上，女性17岁以上，男性

讨论

与以前的作品比较

多年来，完全自动化的BAA一直是计算机视觉和放射学研究的一个目标。大多数先前的方法包括使用从感兴趣区域（ROI）提取的手工特征对用计算机算法分割的特定骨骼进行分类或回归。表3总结了BAA与我们的方法相比的四次尝试。 Seok等人 [ 29 ]利用尺度不变特征变换（SIFT）提取图像描述符和奇异值分解（SVD）来创建固定尺寸的特征向量，并将它们馈送到完全连接的神经网络中。由于他们只使用少量图像，因此他们的模型对于与其内部数据集完全不同的图像不够健壮。他们也没有提供任何可量化的绩效指标。 Somkantha等人 [ 30 ]使用水平和垂直轴上的投影选择腕骨区域，提取腕骨的边界。他们从分割的腕骨上提取了五种形态特征，并用支持向量机（SVM）进行回归。这种方法类似于Zhang等人的方法[ 32 ]，其中手工设计的特征是从腕骨中提取的，并且这些特征被用作模糊逻辑分类器的输入。然而，这种方法不适用于5〜7岁以上的儿童，因为腕骨在这个年龄时通常已经完全成熟，并且不再允许超过这一点的有意义的歧视[ 10 ]。

表3

总结和比较自动化BAA的先前尝试：数据集，方法，显着特征及其局限性

数据集		方法	特征	限制
[ 29]	24个GP女性图像	筛; SVD完全连接NN	使用SVD描述SIFT的固定尺寸特征矢量	用有限的数据进行培训和验证;对实际图像的鲁棒性不足
[ 30]	来自[ 31 ]的180张图像	Canny边缘检测模糊分类	关于腕骨的形态学特征	不适用于7岁以上的儿童
[ 32]	来自[ 31 ]的205张图像	Canny边缘检测模糊分类	关于腕骨的形态特征（Hamate Capitate）	不适用于女性5岁以上的儿童和男性7岁以下的儿童
[ 33]	1559张图片来自多个来源	AAM PCA	关于RUS骨骼的形状，强度和质地的特征	用作输入的年代久远的图像中易受噪声过大的影响
我们的工作	MGH的8325张图片	深度CNN转移学习	数据驱动，自动提取功能	用作输入的年代久远的图像中易受噪声过大的影响

SIFT尺度不变特征变换， AAM主动表观模型，主成分分析，奇异值分解，神经网络，支持向量机， RUS半径尺度短

迄今为止最成功的尝试是BoneXpert [ 33 ]，这是一种被批准在欧洲使用的唯一一款软件医疗设备，也是自动化BAA的首次商业实施。 BoneXpert利用生成模型（主动外观模型（AAM））自动分割手部和腕部的15根骨骼，然后根据形状，强度和纹理特征确定GP或TW2骨龄。尽管BoneXpert报告了自动BAA的相当准确性，但它有几个关键限制。 BoneXpert不直接确定骨龄，因为预测取决于年龄和骨龄之间的关系[ 29 ]。该系统非常脆弱，并且会在噪音过大时拒收X光片。之前的研究报告称，BoneXpert拒绝了5161人中的235人（4.5％）[ 34 ]。最后，BoneXpert不利用腕骨，尽管它们含有幼儿的区别特征。

总之，以前所有的自动化BAA都是基于手工制作的功能，降低了算法从泛化到目标应用程序的能力。我们的方法利用预先训练的深度CNN的传输学习，自动从ROI上的所有骨骼中提取重要特征，ROI通过检测CNN自动分割。不幸的是，所有先前的方法使用不同的数据集并提供其实施和参数选择的有限细节，因此不可能与先前的常规方法进行公平比较。

如何改进系统？

分类精度

本研究中的训练模型在女性和男性队列的2年内（> 98％）和1年内（> 90％）取得了令人印象深刻的分类准确性。未来的改进领域比比皆是。我们计划使用注意力分析图和迭代放射学家反馈的见解来指导进一步的学习并提高预测的准确性。关注地图揭示了与领域专家用来执行传统BAA相似的关键区域; 但是，该算法是否使用与领域专家完全相同的特征还不确定。相反，这种可视化方法仅揭示图像的重要区域是相似的。 CNN可以使用尚未知的功能来执行恰好在相同区域中的精确细粒度分类。需要进一步调查以确定骨形态学是否是CNN用于BAA的。

然而，该算法仍有改进的余地，能够以更快的解释时间提供更准确的BAA。我们将原生DICOM图像下采样为8位分辨率jpegs（224×224），以提供更小的矩阵尺寸并使用基于GPU的并行计算。未来，使用具有更大矩阵大小的原生14位或16位分辨率图像可能会提高算法的性能。

另一种方法可能是开发一种针对BAA优化的新型神经网络架构。最近的高级网络，如GoogLeNet [ 14 ]，VGGNet [ 15 ]和ResNet [ 35 ]，包含很多层次 - 16到152，并且由于我们的训练图像数量相对较少，所以会出现过度拟合的风险。创建一个新的网络拓扑可能是一个更好的BAA方法，比使用传输学习更有效。这需要将来的系统研究来确定BAA的最佳算法，超出了本文的范围。

最后，我们需要重新考虑从报告中获得的骨骼年龄可能不一定反映实际情况，因为BAA本质上是基于人类专家的主观分析。在一些放射学报告中，骨龄被记录为单个数字，数字范围，甚至不在原始GP图谱中的时间点。另外，Greulich和Pyle的原始地图集[ 36 ]提供了一个给定年龄范围从8到11个月的标准偏差，反映了研究人群的固有差异。因此，并不是所有的基本事实都可以被认为是正确的。为了解决这个问题，可以通过迭代训练来增强算法，方法是根据报告中的置信度对训练图像应用不同的权重。

部署时间

拟议的BAA深度学习系统将用于临床环境，以更高效和更准确地执行BAA。执行预处理图像的单个BAA大约需要10 ms。然而，平均需要1.71秒才能在分类前对图像进行裁剪，分割和预处理。在分割之前，大部分时间都是通过构建标签地图来消耗的。通过利用有选择性的搜索来处理只有合理的感兴趣区域的时间可以减少[ 37 ]。此外，不是保留长宽比并创建512×512像素图像，而是将图像变形为较小的矩阵大小，以最终输出图像质量为代价减少分割所需的计算时间。最佳平衡需要系统研究，超出了这项工作的范围。虽然预处理和BAA的所有阶段都不能实时进行（<30 ms），但与传统BAA相比，净解释时间（<2 s）仍然更快，范围从1.4到7.9 min [ 38 ]。

临床应用

图1详细介绍了放射科医师对传统BAA的处理过程以及提出的自动生成报告的全自动BAA系统。放射科医师通常将患者的X光片与G＆P图谱中的参考图像进行比较，这是一项重复且耗时的任务。由于骨龄是根据主观比较来评估的，所以评估者间的差异性可能相当大。因此，我们的系统具有另一个主要优势：它可以减少特定检查的观察者间差异。重复向CNN呈现相同的X光照片总是会导致相同的BAA。

我们的工作流程向放射科医师展示了G＆P地图集中相关的一系列图像，并提供了算法认为最佳匹配的概率估计。放射科医师然后选择他或她认为哪个图像是最准确的BAA，从而触发系统创建标准化报告。该系统可以无缝嵌入到报告环境中，从而提供结构化数据，从而提高报告给EMR的健康数据的质量。

限制

尽管我们的系统在改善工作流程，提高质量和速度解释方面有很大的潜力，但还有一些重要的限制。排除0-4岁的人略微限制了该系统对所有年龄段的广泛适用性。鉴于10年的加入仅包括590名0-4岁的患者（占总查询的5.6％），考虑到该年龄段患者的相对稀少性，这种限制被认为是可以接受的。最后，通过向数据集添加更多的射线照片，我们希望将我们的系统扩展到所有年龄段。

另一个限制是我们使用基于整数的BAA，而不是每6个月提供一次时间点。这不幸是GP方法固有的。原始地图集没有提供一致的时间分配年龄，而不是在快速增长期间，还有额外的时间点。鉴于年龄范围的不断变化，这也使得训练和临床评估变得困难。这是多个其他人试图纠正的问题，例如Gilsanz和Ratib在这方面的工作与数字骨骼成熟图，它使用来自高加索儿童的理想化图像提供从8个月到18岁的29个年龄组[ 10 ]。虽然他们的地图集比GP地图集更加一致，但由于没有广泛的临床应用而存在严重的局限性，因此限制了我们随后可用于机器学习的可用培训数据。

由于我们的队列在低于年度年龄测定的决定方面效力不足，因此我们选择将年龄报告为“X年6个月”的情况下的年龄层保持一致的方法来处理所有中间时间点以及年龄年龄事实自然计数与地板。但是，这可能会引入错误。为了解决这个问题，通过使用选择性圆整的案例来解决这个问题，大量案例，更高分辨率的图像或更高功率的计算机系统可以找到最佳设置组合，这超出了本工作的范围，但是这是一个重要的未来方向。

最后，一个重要的考虑因素是观察者间变异性的程度。有限的直接可比数据可以在关于BAA中观察者间变异性的文献中获得。英国注册服务机构使用Greulich和Pyle评估了50幅图像的估计值为0.96年，而Tanner自己的出版物显示，这表明使用TW2系统手动解释导致差异大于1阶段，时间范围为17％到33％[ 38,39,40 ]。 20世纪90年代后期，由南加州大学的图像处理和信息学实验室编制的数字手册[ 31 ]提供了手部X光片最全面的开放数据集，并由两名评估者进行评估。该系列中的所有射线照片均由两位评分员评分，总体RMSE为0.59岁-0.54岁，女性为0.57岁，所有5至18岁的儿童为0.66岁。韩国最近发表的一项研究报道，GP方法[ 41 ]的观察者间变异为0.51±0. 44年。这些值为人类观察者间变异性提供了基线; 然而，他们可能低估了观察者间变异的真实程度。我们的女性0.93年和男性0.82年的数值可以与这些报告数值的上限相提并论，我们的系统不会拒绝畸形图像。尽管我们的数据集确实提供了一个丰富的资源，可以对多位评估者和经验水平进行观察者间变异性的严格评估，但执行此类分析超出了本工作的范围，并且将作为未来检查的一部分来执行，以帮助指导系统性能。

结论

我们创建了一套完全自动化的深度学习系统，可以自动检测和分割手部和手腕，使用预处理引擎对图像进行标准化，使用微调的CNN执行自动化BAA，并生成结构化的放射学报告，由放射科医生做出最终决定。该系统自动标准化所有不同格式，供应商和质量的手部X光片，作为未来模型增强的训练数据集，并在女性和男性队列中获得2年内98.56％和1年内92.29％的良好平均BAA准确性。我们确定训练好的算法评估BAA的手部和腕部的相似区域，就像人类专家通过注意力图所做的那样。最后，我们的BAA系统可以部署在临床环境中，通过显示G＆P地图集的三到五个参考图像，显示我们的放射科医生的自动BAA，通过一键式结构化报告生成来确定最终年龄。

参考

1。

Greulich WW，Idell Pyle S.手和手腕的骨骼发育的射线照相图谱。 Am J Med Sci; 238：393,1959CrossRef Google Scholar
2。

Tanner JM，Whitehouse RH，Cameron N.骨骼成熟度评估和成人身高预测（Tw2方法）。 1989年。谷歌学者
3。

Heyworth BE，Osei D，Fabricant PD，Green DW。用于确定骨龄的新的，经过验证的速记方法。年会。 hss.edu; 2011; 可用： https ： //www.hss.edu/files/hssboneageposter.pdf
4。

LeCun Y，Bengio Y，Hinton G.深入学习。性质。 2015; 521：436-444。 CrossRef PubMed Google Scholar
5。

Anthimopoulos M，Marios A，Stergios C，Lukas E，Andreas C，Stavroula M.使用深卷积神经网络对肺间质疾病的肺模式分类。 IEEE Trans Med Imaging。 35：1207-1216，2016.CrossRef PubMed Google Scholar
6。

Liskowski P，Pawel L，Krzysztof K.用深层神经网络分割视网膜血管。 IEEE Trans Med Imaging; 2016年1月1日。Google学术搜索
7。

Greenspan H，Hayit G，van Ginneken B，Summers RM。客座编辑深度学习医学影像：一个令人兴奋的新技术的概述和未来承诺。 IEEE Trans Med Imaging。; 35：1153-1159，2016。CrossRefGoogle Scholar
8。

Yan Z，Zhan Y，Peng Z，Liao S，Shinagawa Y，Zhang S，et al。多实例深度学习：发现身体部位识别的区别性局部解剖结构。 IEEE Trans Med Imaging。 doi： 10.1109 / TMI.2016.2524985，2016PubMed Google Scholar
9。

van Grinsven M，van Ginneken B，Hoyng C，Theelen T，Sanchez C.使用选择性数据采样的快速卷积神经网络训练：应用于彩色眼底图像中的出血检测。 IEEE Trans Med Imaging。 doi： 10.1109 / TMI.2016.2526689，2016 .PubMed Google Scholar
10。

Gilsanz V，Ratib O.手骨龄：骨骼成熟的数字图谱。施普林格科学与商业媒体; 2005.Google学术搜索
11。

Lecun Y，Bottou L，Bengio Y，Haffner P.基于渐变的学习应用于文档识别。 Proc IEEE。; 86：2278-2324,1998。CrossRefGoogle Scholar
12。

LeCun Y，Cortes C，Burges C. MNIST手写数字数据库。 1998; 谷歌学术
13。

Krizhevsky A，Sutskever I，Hinton GE。深度卷积神经网络的Imagenet分类。神经信息处理系统的进展。 pp。1097-1105，2012.Google Scholar
14。

Szegedy C，Christian S，Wei L，Yangqing J，Pierre S，Scott R，等人。进一步与卷积。 2015年计算机视觉与模式识别（CVPR）IE大会。 doi： 10.1109 / cvpr.2015.7298594,2015 。
15。

Simonyan K，Zisserman A.用于大规模图像识别的非常深的卷积网络[因特网]。 arXiv [cs.CV]。 2014年。可用： http : //arxiv.org/abs/1409.1556
16。

Deng J，Dong W，Socher R，Li LJ，Li K，Fei-Fei L. ImageNet：一个大规模的分层图像数据库。计算机视觉和模式识别，2009 CVPR 2009 IE会议。 2009.第248-255页。谷歌学术
17。

Deng J，Krause J，Stark M，Fei-Fei L.利用人群的智慧进行细粒度的识别。 IEEE Trans Pattern Anal Mach Intell。; 38：666-676，2016。CrossRefPubMed Google Scholar
18。

pt？> Nilsback ME，Zisserman A.在大量类上进行自动花分类。计算机视觉，图形图像处理，2008 ICVGIP '08第六届印度会议。 2008年，第722-729页。谷歌学术
19。

Wah C，Branson S，Welinder P，Perona P，Belongie S.加州理工学院 - UCSD鸟类-200-2011数据集。加利福尼亚州帕萨迪纳市：加利福尼亚理工学院; 8，2011.Google学术搜索
20。

Russakovsky O，Deng J，Krause J，Berg A，Fei-Fei L. 2013大型视觉识别挑战（ILSVRC2013）。 Google学术搜索
21。

Shin HC，Roth HR，Gao M，Lu L，Xu Z，Nogues I等人。用于计算机辅助检测的深度卷积神经网络：CNN体系结构，数据集特征和传输学习。 IEEE Trans Med Imaging。 2016; 35：1285-1298。 CrossRef PubMed Google Scholar
22。

Tajbakhsh N，Shin JY，Gurudu SR，Hurst RT，Kendall CB，Gotway MB等人。用于医学图像分析的卷积神经网络：全面训练或微调？ IEEE Trans Med Imaging。 2016; 35：1299-1312。 CrossRef PubMed Google Scholar
23。

Russakovsky O，Olga R，Jia D，Hao S，Jonathan K，Sanjeev S，等人。 ImageNet大规模视觉识别挑战。 Int J Comput Vis .; 115：211-252，2015.CrossRef 谷歌学者
24。

Canziani A，Paszke A，Culurciello E.对实际应用[Internet]的深度神经网络模型的分析。 arXiv [cs.CV]。可用的： http : //arxiv.org/abs/1605.07678
25。

贾Y.卡菲模特动物园。 2015年; 谷歌学术
26。

NVIDIA®DIGITS™DevBox。在：NVIDIA开发人员[互联网]。 2015年3月16日[引用2016年8月23日]。可用： https ： //developer.nvidia.com/devbox
27。

Zeiler MD，Fergus R.可视化和理解卷积网络。在：Fleet D，Pajdla T，Schiele B，Tuytelaars T，编辑。 Computer vision-ECCV 2014. Springer International Publishing; 2014.第818-833页。谷歌学术
28。

Simonyan K，Vedaldi A，Zisserman A.深入卷积网络：可视化图像分类模型和显着图[互联网]。 arXiv [cs.CV]。 2013年。可用： http : //arxiv.org/abs/1312.6034
29。

Seok J，Hyun B，Kasa-Vubu J，Girard A.骨龄X射线图像自动分类系统。 2012年IE系统，人与控制论国际会议（SMC）。 IEEE; 208-213页。谷歌学术
30。

Somkantha K，Theera-Umpon N，Auephanwiriyakul S.使用自动腕骨特征提取和支持向量回归的幼儿骨龄评估。 J数字成像。 24：1044-1058，2011.CrossRef PubMed PubMedCentral 谷歌学术搜索
31。

Cao F，Huang HK，Pietka E，Gilsanz V.数字手册图和基于网页的骨龄评估：系统设计和实施。计算机医学成像图。 2000; 24：297-307。 CrossRef PubMed Google Scholar
32。

张A，Gertych A，刘BJ。自动骨龄评估从幼儿到7岁的新生儿使用腕骨。计算机医学成像图。 2007; 31：299-310。参考文献 PubMed PubMedCentral 谷歌学术搜索
33。

Thodberg HH，Kreiborg S，Juul A，Pedersen KD。用于自动确定骨骼成熟度的BoneXpert方法。 IEEE Trans Med Imaging。 2009; 28：52-66。 CrossRef PubMed Google Scholar
34。

Zhang J，Lin F，Ding X.中国正常儿童样本中手腕骨骼的成熟差异：基于自动BoneXpert和手动Greulich和Pyle图谱评估的分析。韩国J Radiol。 2016; 17：435-442。参考文献 PubMed PubMedCentral 谷歌学术搜索
35。

He K，Zhang X，Ren S，Sun J. Deep residual learning for image recognition [Internet]。 arXiv [cs.CV]。可获得： http ： //arxiv.org/abs/1512.03385
36。

Greulich WW，Pyle SI。手和腕关节骨骼发育的射线照相图谱。 Am J Med Sci。 pdfs.journals。 lww.com ; 1959; 可用： http : //pdfs.journals.lww.com/amjmedsci/1959/09000/Radiographic_Atlas_of_Skeletal_Development_of_the.30.pdf
37。

Girshick R，Donahue J，Darrell T. Rich精确对象检测和语义分割的特征层次结构。和模式识别。 cv-foundation.org ; 2014; 可用： http : //www.cv-foundation.org/openaccess/content_cvpr_2014/html/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.html
38。

King DG，Steventon DM，O'Sullivan MP，Cook AM，Hornsby VP，Jefferson IG等。当由放射科注册商执行时，骨龄的再现性：对Tanner和Whitehouse II与Greulich和Pyle方法的审核。 Br J Radiol。 1994; 67：848-851。 CrossRef PubMed Google Scholar
39。

Tanner JM，Gibbons RD。使用计算机图像分析自动进行骨龄测量。 J Pediatr Endocrinol。 1994; 7：141-145。 CrossRef PubMed Google Scholar
40。

Tanner JM，Oshman D，Lindgren G，Grunbaum JA，Elsouki R，Labarthe D. Tanner-Whitehouse骨骼成熟度（CASAS）的计算机辅助估计的可靠性和有效性：与手工方法的比较。 Horm Res。 1994; 42：288-294。 CrossRef PubMed Google Scholar
41。

Kim SY，Oh YJ，Shin JY，Rhie YJ，Lee KH。比较Greulich-Pyle和Tanner Whitehouse（TW3）在骨龄评估中的方法。 J Korean Soc Pediatr Endocrinol; 13：50-55,2008。GoogleScholar