电子商务多模态基础模型ECLIP

小马不会过河

已于 2024-05-06 15:00:56 修改

阅读量1k

点赞数 29

文章标签：人工智能深度学习 AI AI大模型计算机技术

于 2024-04-10 17:53:11 首次发布

本文链接：https://blog.csdn.net/m0_59163425/article/details/137605076

版权

文章介绍了ECLIP模型，一种针对电子商务场景设计的通用模型，它通过视觉-语言精细定位能力，从多模态数据中学习商品实例级别的表示，以提高商品分类、检索和推荐等任务的性能。ECLIP在无大量标注情况下仍表现出优秀性能，已在实际业务中部署。

摘要由CSDN通过智能技术生成

电子商务的蓬勃发展给人们的日常生活带来了极大的便利，也由此出现了与之相关联的多种应用任务，如商品分类、检索、推荐等等。与为每个特定的任务单独设计模型相比，为多个电商应用任务同时构建一个通用的基础模型是可以增强其适用性，降低训练的成本。现阶段，在电子商务领域的数据通常以多个模态呈现，例如一个商品常包含详情图、评论图、商品标题、商品属性等多种模态的数据，可以利用这些多模态信息去学习通用的特征表示。然而，商品图像和自然图像的特点截然不同。自然图像中几乎每个区域都被其对应的文本所描述，电商图片中真正有用的信息往往由它所关联的商品标题所确定，只存在于图像中的某个特定区域。如图1中，“煎锅”或“咖啡机”等商品实例只占据整个图像的一部分。而图中其他物体如“电磁炉”等则和商品文本标题无关。如果像传统的多模态模型那样，简单地将整个图像视为一个整体来与文本进行跨模态对齐，将会不可避免地混淆商品实例和嘈杂的背景物体。因此，电子商务基础模型的核心难题之一是如何学习得到和商品相关的表示（instance-level representation）。

在这里插入图片描述
解决这一挑战需要模型具有视觉-语言精细定位的能力，即根据描述商品的文本内容定位到相关联的特定图像区域。本工作提出一种无须海量人工标注的策略，如图2所示，一个商品相关的图片通常来自不同的源头，例如商品详情页、商品广告视频、以及买家的评论等等。这些不同来源的数据中包含相同的商品实例（例如图中的“红宝石面霜”），因此可以利用这种显式的相关性自动获得弱标注来对模型进行训练。

在这里插入图片描述
在模型架构设计上， ECLIP引入了一个样例解码器（instance decoder）结构来提取图像中和商品实体相关的部分，包含了一组可学习的样例查询（instance query）来感知电商图片中潜在的商品实例信息。此外，每个样例查询依赖于特定的多模态提示（multi-modal prompt），用于感知特定类型的商品实例。图3为ECLIP模型的设计细节。

在这里插入图片描述
为了优化ECLIP，该工作采用了三种新的代理任务（pretext task），包括图像文本对比学习，商品间和商品内多模态学习，促使样例查询关注到图像中商品实例所在的区域，而忽视其它不相关的物体。其中商品间的多模态学习任务如图4，包含了不同商品所提取的实例特征之间的对比学习（即使得属于同一商品的两则特征之间的相似度大于不同的商品）及商品文本匹配（即提取的实例特征应与其对应的商品文本描述相互匹配）。

在这里插入图片描述
ECLIP的基础版本有220M参数，而大型版本含有450M的参数。为了优化ECLIP的参数，从电子商务网站中收集了大约一亿图像文本对，包含1500万个不同的商品，涵盖了服装、日用品、仪器等约9000个不同的类别。对于每个商品样本，都有相应的文字描述和来自商品详情页、客户评论和附加广告视频的图片。为了评估ECLIP的性能优越性，该文在多个电商下游任务上进行了实验，包括零样本商品分类、零样本商品定位等。与传统的多模态模型相比，ECLIP取得了显著的性能提升，验证了提取商品实例化表示在电子商务领域中的重要性。值得注意的是，在没有任何人工标注的情况下，ECLIP在视觉定位（grounding）等定位任务上仍然获得优异的性能。这充分说明了ECLIP学到了视觉语言定位的能力。图5给出了一些可视化结果。左图展示了商品图片与文本描述之间的相似度热力图，其中深色对应更高的相似度，可以看到同传统的多模态模型CLIP相比，ECLIP更容易正确地关注到与文本描述相对应的商品实例。右图也展示了ECLIP在定位任务上的优越性能。

在这里插入图片描述
通过在上亿级的电商业务多模态数据上进行训练和定制设计的编码器结构，ECLIP取得了优异的性能，目前已经在字节跳动的电商业务中进行部署应用。本文第一作者为前沿交叉学科研究院20级博士生金阳，通讯作者为穆亚东长聘副教授，其他合作者还包括李勇志、袁泽寰（字节跳动公司）。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述