电商项目顺序图_FashionBERT 电商领域多模态研究：如何做图文拟合？

最新推荐文章于 2022-10-06 16:35:06 发布

weixin_39746869

最新推荐文章于 2022-10-06 16:35:06 发布

阅读量390

点赞数

文章标签：电商项目顺序图

本文链接：https://blog.csdn.net/weixin_39746869/article/details/111627438

版权

简介：目前学术界关于多模态的研究重点在通用领域，针对电商领域的研究相对较少。在多模态数据匹配上，使用 ViLBERT 方法在通用领域的效果确实不错，但是在电商领域，由于提取的 ROI 并不理想，导致效果低于预期。本文提出了一种图文匹配模型—— FashionBERT，其核心问题是如何解决电商领域图像特征的提取或者表达，分享了模型的整体结构及算法，以及在业务上的应用效果和实验数据提升。该论文已经被信息检索领域国际顶级会议 SIGIR20 Industry Track 接收。

背景

随着 Web 技术发展，互联网上包含大量的多模态信息（包括文本，图像，语音，视频等）。从海量多模态信息搜索出重要信息一直是学术界研究重点。多模态匹配核心就是图文匹配技术 (Text and Image Matching)，这也是一项基础研究，在非常多的领域有很多应用，例如图文检索 (Cross-modality IR)，图像标题生成 (Image Caption)，图像问答系统 (Vision Question Answering)，图像知识推理 (Visual Commonsense Reasoning)。但是目前学术界研究重点放在通用领域的多模态研究，针对电商领域的多模态研究相对较少，然而电商领域也非常需要多模态匹配模型，应用场景特别多。本文重点关注电商领域图文多模态技术研究。

多模态匹配研究简史

跨模态研究核心重点在于如何将多模态数据匹配上，即如何将多模态信息映射到统一的表征空间。早期研究主要分成两条主线：Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通过分析图像和文本的 correlation，然后将图像和文本到同一空间。这一系列的问题论文完美，但是效果相对深度学习方法还是有待提高的。虽然后期也有基于深度学习的方案 (DCCA)，但是对比后面的 VSE 方法还有一定差距。

VSE 系统方法

将图像和文本分别表示成 Latent Embedding，然后将多模态 Latent Embedding 拟合到同一空间。VSE 方法又延伸出来非常多的方法例如 SCAN，PFAN。这些方法在通用图文匹配上已经拿到不错效果。

随着 pre-training 和 self-supervised 技术在 CV 和 NLP 领域的应用。2019 年开始，有学者开始尝试基于大规模数据，使用预训练的 BERT 模型将图文信息拟合同一空间。这些方法在通用领域取得很好的效果，这一系列的方法可以参看 VLBERT 这篇

最低0.47元/天解锁文章

weixin_39746869

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
电商项目顺序图_FashionBERT 电商领域多模态研究：如何做图文拟合？

简介：目前学术界关于多模态的研究重点在通用领域，针对电商领域的研究相对较少。在多模态数据匹配上，使用 ViLBERT 方法在通用领域的效果确实不错，但是在电商领域，由于提取的 ROI 并不理想，导致效果低于预期。本文提出了一种图文匹配模型—— FashionBERT，其核心问题是如何解决电商领域图像特征的提取或者表达，分享了模型的整体结构及算法，以及在业务上的应用效果和实验数据提升。该论文已经被...
复制链接

扫一扫