多模态医疗大模型（一）——医学图像数据集MedTrinity-25M下载与数据读取

最新推荐文章于 2025-03-19 21:56:26 发布

紫竹苑主

最新推荐文章于 2025-03-19 21:56:26 发布

阅读量1.7k

点赞数 14

文章标签： python 健康医疗语言模型图像处理人工智能 nlp 数据分析

本文链接：https://blog.csdn.net/u010447762/article/details/144213205

版权

最近想要自己玩一个多模态医疗大模型，首选需要获取数据集，于是抱抱脸上找到了MedTrinity-25M的下载地址 https://huggingface.co/datasets/UCSC-VLAA/MedTrinity-25M

数据集介绍

MedTrinity-25M 是一个全面的大型医学多模态数据集，由华中科技大学、加州大学、哈佛大学、斯坦福大学等机构合作发布，涵盖 10 种模态 2500 多万张图像，为 65 多种疾病提供多粒度注释。这些注释既包括全局文本信息，例如疾病/病变类型、模态、区域特定描述和区域间关系，也包括感兴趣区域 (ROI) 的详细局部注释，包括边界框、分割蒙版。支持全面的多模态任务，例如字幕和报告生成，以及以视觉为中心的分类、分割等任务。

下载数据集

本地安装官网提示下载遇到了各种问题（25M_full下载正常，但25M_demo各种失败），于是果断使用手工下载数据集
在这里插入图片描述
点击data后一个个点击下载，总共10个文件
下载之后长这样

本地预览数据集

.parquet文件，使用pandas pyarrow引擎可以读取，脚本如下：
df = pd.read_parquet(‘cache/UCSC-VLAA___med_trinity-25_m/25M_demo/0.0.0/train-00000-of-00010.parquet’, engine=‘pyarrow’)
打印前五行出来看看 print(df.head()) ，数据长这样
在这里插入图片描述
不记得df都有啥，没关系，dir(df)去看看都有哪些方法和熟悉可用，看到了info，就他吧

df.info()预览一下信息长这样，不错，大概知道里面都有啥了
在这里插入图片描述
再试试loc方法，df.loc[0]读取第0行信息，长这样

看到imag、id 和caption信息，image是bytes类型，存储在一个字典里，探究一下字典里还放了什么：image = df.loc[0, “image”]
type(image) 果然是个字典

来看看字典里都有啥，image.keys()
在这里插入图片描述
image.values()
嗯，基本清楚数据里放的是图像、id、caption、还有路径，可用试试看完整的图像和内容了，
临时写一个方法来显示图像和相关描述使用

好啦，数据全貌都出来啦，后续再记录如何使用这些数据搞点事情