多模态医疗大模型(一)——医学图像数据集MedTrinity-25M下载与数据读取

最近想要自己玩一个多模态医疗大模型,首选需要获取数据集,于是抱抱脸上找到了MedTrinity-25M的下载地址 https://huggingface.co/datasets/UCSC-VLAA/MedTrinity-25M

数据集介绍

MedTrinity-25M 是一个全面的大型医学多模态数据集,由华中科技大学、加州大学、哈佛大学、斯坦福大学等机构合作发布,涵盖 10 种模态 2500 多万张图像,为 65 多种疾病提供多粒度注释。这些注释既包括全局文本信息,例如疾病/病变类型、模态、区域特定描述和区域间关系,也包括感兴趣区域 (ROI) 的详细局部注释,包括边界框、分割蒙版。支持全面的多模态任务,例如字幕和报告生成,以及以视觉为中心的分类、分割等任务。

下载数据集

本地安装官网提示下载遇到了各种问题(25M_full下载正常,但25M_demo各种失败),于是果断使用手工下载数据集
在这里插入图片描述
点击data后一个个点击下载,总共10个文件在这里插入图片描述
下载之后长这样在这里插入图片描述

本地预览数据集

.parquet文件,使用pandas pyarrow引擎可以读取,脚本如下:
df = pd.read_parquet(‘cache/UCSC-VLAA___med_trinity-25_m/25M_demo/0.0.0/train-00000-of-00010.parquet’, engine=‘pyarrow’)
打印前五行出来看看 print(df.head()) ,数据长这样
在这里插入图片描述
不记得df都有啥,没关系,dir(df)去看看都有哪些方法和熟悉可用,看到了info,就他吧
在这里插入图片描述

df.info()预览一下信息 长这样,不错,大概知道里面都有啥了
在这里插入图片描述
再试试loc方法,df.loc[0]读取第0行信息,长这样
在这里插入图片描述
看到imag、id 和caption信息,image是bytes类型,存储在一个字典里,探究一下字典里还放了什么:在这里插入图片描述image = df.loc[0, “image”]
type(image) 果然是个字典
在这里插入图片描述
来看看字典里都有啥,image.keys()
在这里插入图片描述
image.values()
在这里插入图片描述嗯,基本清楚数据里放的是图像、id、caption、还有路径,可用试试看完整的图像和内容了,
临时写一个方法来显示图像和相关描述使用
在这里插入图片描述
在这里插入图片描述
好啦,数据全貌都出来啦,后续再记录如何使用这些数据搞点事情

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值