【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练

【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练

在这里插入图片描述

文章主页:PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents (weixionglin.github.io)
论文链接:[2303.07240] PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents (arxiv.org)
代码链接:GitHub - WeixiongLin/PMC-CLIP

摘要

在大规模数据集上训练的基础模型最近在 CV 和 NLP 方面取得了飞速发展。 相比之下,生物医学领域由于数据匮乏,发展远远滞后。 为了解决这个问题,我们构建并发布了 PMC-OA,这是一个生物医学数据集,包含从 PubMedCentral 的 OpenAccess 子集收集的 160 万个图像标题对,比以前大 8 倍。 PMC-OA 涵盖多种模式或疾病,大多数图像标题样本在更细粒度的级别上对齐,即子图和子标题。 在 PMC-OA 上预训练 CLIP 式模型时,我们名为 PMC-CLIP 的模型在各种下游任务上实现了最先进的结果,包括 ROCO 上的图像文本检索、MedMNIST 图像分类、医学 VQA,即 +8.1 图文检索% R@10,图像分类准确率+3.9%。

引言

在最近的文献中,基础模型的发展一直是人工智能的主要推动力,例如,用自回归预测或涂膜标记训练的大型语言模型,以及通过对比视觉语言特征训练的计算机视觉模型。相比之下,生物医学领域的发展远远落后,这是由于两个方面的数据可用性的限制,(i)注释所需的专业知识,(ii)隐私问题。本文介绍了我们使用公开的科学论文构建大规模,高质量,图像-文本生物医学数据集的初步研究,其中涉及的手工工作最少。
特别是,我们从PubMed Central(美国国立卫生研究院生物医学和生命科学期刊文献的免费全文档案)的科学文献中抓取数据和相应的标题。这带来了两个好处:(i)出版物中的内容通常都有很好的注释和专家的检查,(ii)数字已经很好地匿名化和去识别。在文献中,我们显然不是第一个以这种方式构建生物医学数据集的人,然而,现有的数据集受到当今标准的某些限制。例如,作为一项开创性的工作,ROCO是在很久以前构建的,只有81k的放射图像。MedICAT包含217k张图像,但大部分由复合体组成。在这项工作中,我们通过引入一个自动管道来从科学文献中生成具有子图和字幕对应的数据集,解决了上述限制,该管道包括三个主要阶段:医学图收集、子图分离、字幕分离和对齐。最终的数据集PMC-OA,由1.65M个图像-文本对组成,如图1和图3。
在这里插入图片描述

与构建的数据集一起,我们训练了一个clip风格的生物医学领域视觉语言模型,称为PMC-CLIP。该模型在具有标准图像-文本对比(ITC)损失的PMC-OA上进行训练,为了促进图像和文本的联合交互,还采用了掩码语言建模(MLM)。我们在几个下游任务上评估预训练模型,包括医学图像文本检索、医学图像分类和医学视觉问答(VQA)。PMC-CLIP在各种下游任务上实现了最先进的性能,大大超过了以前的方法。
总体而言,本文做出了以下贡献:首先,我们提出了一个从科学论文中构建高质量图像-文本生物医学数据集的自动管道,并通过该管道构建了一个图像-标题数据集,命名为PMC-OA,该管道比以前大8倍。利用所提出的管道,数据集可以持续更新。其次,我们在构建的图像采集数据集上预训练一个视觉语言模型,称为PMC-CLIP,作为生物医学领域的基础模型。第三,我们对各种任务(检索、分类和VQA)进行了深入的实验,并在大多数下游数据集上获得了SOTA性能,证明了PMC-OA的优势和基础模型PMC-CLIP的潜力。数据集和预训练模型将提供给社区。
在这里插入图片描述

PMC-OA是一个大规模的医学图像-文本数据集,包含165万个图像-文本对。该数据集的收集过程包括三个主要阶段:医学图像收集、子图分离和子标题分离与对齐。首先,从PubMed Central中提取图像和标题,然后使用预定义的医学关键词过滤标题,删除不相关的图像-文本对。最后,将图像和标题对齐,形成图像-文本对。PMC-OA数据集的特点包括:涵盖了多种诊断程序、疾病和发现;疾病以自由文本形式给出,允许详细的识别和分析;性别比例大致平衡。

PMC-CLIP模型在医学领域的预训练模型中表现出色,超过了以前的方法。在多个下游任务中,包括医学图像-文本检索、医学图像分类和医学视觉问答(VQA)等,PMC-CLIP都取得了最先进的性能。与其他预训练模型相比,PMC-CLIP模型具有更好的泛化能力和更高的准确性。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
更多内容详见公众号:曲艺小苑
在这里插入图片描述

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
对于计算机专业的学生而言,参加各类比赛能够带来多方面的益处,具体包括但不限于以下几点: 技能提升: 参与比赛促使学生深入学习和掌握计算机领域的专业知识与技能,如编程语言、算法设计、软件工程、网络安全等。 比赛通常涉及实际问题的解决,有助于将理论知识应用于实践中,增强问题解决能力。 实践经验: 大多数比赛都要求参赛者设计并实现解决方案,这提供了宝贵的动手操作机会,有助于积累项目经验。 实践经验对于计算机专业的学生尤为重要,因为雇主往往更青睐有实际项目背景的候选人。 团队合作: 许多比赛鼓励团队协作,这有助于培养学生的团队精神、沟通技巧和领导能力。 团队合作还能促进学生之间的知识共享和思维碰撞,有助于形成更全面的解决方案。 职业发展: 获奖经历可以显著增强简历的吸引力,为求职或继续深造提供有力支持。 某些比赛可能直接与企业合作,提供实习、工作机会或奖学金,为学生的职业生涯打开更多门路。 网络拓展: 比赛是结识同行业人才的好机会,可以帮助学生建立行业联系,这对于未来的职业发展非常重要。 奖金与荣誉: 许多比赛提供奖金或奖品,这不仅能给予学生经济上的奖励,还能增强其成就感和自信心。 荣誉证书或奖状可以证明学生的成就,对个人品牌建设有积极作用。 创新与研究: 参加比赛可以激发学生的创新思维,推动科研项目的开展,有时甚至能促成学术论文的发表。 个人成长: 在准备和参加比赛的过程中,学生将面临压力与挑战,这有助于培养良好的心理素质和抗压能力。 自我挑战和克服困难的经历对个人成长有着深远的影响。 综上所述,参加计算机领域的比赛对于学生来说是一个全面发展的平台,不仅可以提升专业技能,还能增强团队协作、沟通、解决问题的能力,并为未来的职业生涯奠定坚实的基础。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值