跨模态学习

该博客介绍了如何进行跨模态学习,通过resnet18处理图像得到特征图,利用tensorly进行分解重组,并为每个特征图建立单分类器。同时,采用bert模型对文本进行多标签分类。在融合部分,结合图像和文本的fc层,通过一维卷积进行分类。训练过程包括分阶段训练A、B、C部分,直到结果稳定。实验在flickr25k和MSCOCO2014数据集上进行,采用多种评价指标评估性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
A 图像部分:resnet18(预训练)得到 51277 的 feature map,使用 tensorly 库函数进行分
解重组(
大概
),得到 51277 的 feature map,为每一张特征图建立一个单分类器(共 512 个),过滤掉
重复即为原始图像分类结果
B 文本部分:利用 bert 模型(预训练,利用 pytorch_transformers)进行多标签分类。
C 融合部分:利用 A 得到的 2561 的 fc 层,与 B 得到的 2561 的 fc 层,进行一维卷积,得
到的结果进行分类。若实现上有难度,直接将两个 fc 层,拼接然后分类。
训练方法 :
Epoch0:训练 A,B 部分,反向传播得到训练参数
Epoch1,:利用上一轮训练得到的参数向前传播,训练模型 C 部分,反向传播

训练轮数:结果变化小于百分之 0.1 或者最优上下浮动平均值,终止,并保存最优参数
保存每次评价指标结果以及最终最优结果的参数。
其余部分 :
为数据集 flickr25k(三分之一测试其余训练)和 MSCOCO2014 两个数据集,分别进行预处
理以及加载。
评价指标:Coverage,RankingLoss,MacroAUC,ExampleAUC,AveragePrecision,MicroAUC
HammingLoss

一 tensoly
tl.set_backend(‘pytorch’)
pip 安装后,一定要执行,否则不支持pytorch, 上面一句会提示错误
git clone https://github.com/tensorly/tensorly
cd ten

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值