多模态学习-基于文本和图像信息的商品分类框架

将文本model和图像model合并为一个model,因为它们包含了互补的信息。

对于图像和文本数据,都是用CNN。对图像数据,使用已经在Image-Net上训练过的网络,该网络已经具有为自然图像提取丰富特征的能力。利用预先训练的机器学习模型称为转移学习。对文本数据,使用一个预先在商品标题上训练好的TextCNN模型。

利用预先训练的机器学习模型对新场景重新训练学习的过程称为转移学习。

我们希望从这两个模型的交互中获得更大的收益,所有我们创建了两个CNN分枝,一个分枝接受向量话的图像,一个分枝接受向量话的文本。整个架构如下:


效果评估

直接使用两个模型,和联合到一起的模型:

ImagesTextImages + Text
85%86%93%

预训练的VGG网络是在Image-Net的1000个类上的训练结果,没有一个是服装或图书,所以可以使用特征类目对其进行微调,我们选择了微调最后3个卷积层,下面是微调后的训练结果:

ImagesTextImages + TextImages + Text + Fine Tuning
85%86%93%94%


尝试:

3.图像model先在真实类目上微调。

4.交替训练还是联合训练。

5.用LSTM-attention代替TextCNN。


  • 1
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值