梳理、标注数据太麻烦？柳叶刀的这种思路一定大大减少你的工作量！-CSDN博客

本文链接：https://blog.csdn.net/Python_cocola/article/details/144197583

引言

当前，尽管人工智能在医学领域展现了巨大的潜力，但在实际应用中依然面临诸多挑战，尤其是开发准确的人工智能辅助诊断系统需要用大量标注数据进行训练。一方面，医疗数据标注不仅需要医学专业知识，同时也是一项劳动密集型且耗时的工作，私有数据的构建受到限制。另一方面，由于医疗数据的稀缺性以及患者隐私问题，医学公共数据集的发展也较为缓慢。

通过自然语言处理技术从放射学报告中提取并关联疾病信息，能够显著减少医疗数据手工标注的需求，这一思路在胸部X光和头部CT影像相关的研究中已显示出良好的效果。但对于腹部CT之类复杂的影像，由于涉及多个器官和广泛的解剖区域，准确提取每个器官的疾病信息并与图像对应是仍是一项艰巨的任务。

柳叶刀子刊近期的研究针对腹部CT的辅助诊断任务，将自然语言处理技术与多实例学习技术相结合，提出了一种基于深度学习的腹部CT辅助诊断方法，该研究所采用的思路显著降低了数据梳理标注的工作量。

数据及方法

该研究主要包含三个部分：一是构建多器官分割模块从CT图像中提取器官特定的区域，二是构建信息提取模块从放射学报告中提取每个器官的疾病信息，三是基于多器官分割和信息提取的结果构建异常检测模块以识别器官异常。

多器官分割模块基于nnUNet实现。该研究使用了431例影像用于多器官分割模型的训练及评估，实现了肝脏、胆囊、胰腺、脾脏、左右肾、食管、胃、十二指肠、主动脉、左右肾上腺、膀胱以及前列腺/子宫共13个解剖结构的高精度分割，用于支撑异常检测模型的训练。

信息提取模块包括实体提取和关系提取两个部分。实体提取从放射学报告中提取三类实体：观察（如“结节”或“胸腔积液”）、临床发现（基于观察的诊断，如“癌症”）、修饰词（描述解剖位置、确定性、变化、特征及大小的属性）。关系提取用于预测实体之间的关系。模型使用911465份内部报告进行预训练，并通过1040份带标注的报告进一步微调。

异常检测模型基于多实例学习框架实现。异常检测模型结合2D卷积神经网络与长短期记忆网络（LSTM），并以多器官分割模块分割后的3D器官图像为输入，以信息提取模块提取的疾病信息作为标注进行训练。多实例学习的应用，使异常检测模型在一定程度上减少了对病灶精确标注的依赖。

总结

该研究所采用的思路显著降低了数据梳理标注的工作压力，并显示出一种数据准备全自动化的趋势。首先，该研究通过多实例学习技术使得医学影像仅需进行器官级标注，而无需对病灶进行精细标注。其次，该研究通过实体提取及关系抽取技术实现了疾病信息自动获取。这显著降低了深度学习模型构建过程中数据的梳理、标注工作量。随着人工智能技术的发展，器官级标注和疾病信息自动获取等工作势必被大模型所替代，各位开展研究所需的数据准备工作将逐步走向自动化。不过话说过来，构建这个数据准备自动化流程的工作也是一个非常的好的选题。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述