天池数据集 | 精品数据集推荐多模态篇

最新推荐文章于 2024-05-15 23:51:40 发布

鱼鱼今天困了没

最新推荐文章于 2024-05-15 23:51:40 发布

阅读量1.4k

点赞数 2

分类专栏：人工智能算法数据集文章标签：人工智能机器学习 big data 大数据

原文链接：https://mp.weixin.qq.com/s/JZ-xl4Aiy1fuX93msani1A

版权

人工智能算法数据集专栏收录该内容

8 篇文章 1 订阅

订阅专栏

多模态机器学习，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

近年来，大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展，同时也推动了多模态表征学习的研究。2020年谷歌人工智能大神Jeff Dean就曾指出，多模态研究将会是未来研究一大趋势。本期萌喵将带大家一起看看多模态研究领域的数据集，希望可以助力大家的学习&研究~

Multimodal Retrieval Dataset 淘宝多模态检索数据集

研究方向：跨模态检索

在传统电商时代，用户搜索产品时大都是依靠关键词去匹配产品，由于产品的关键词一般是由卖家自拟，部分商家为了提高商品曝光量会拟定很多关键词，故用户搜索时偶尔会出现与搜索词不相关的产品。

使用图像特征对产品集合进行排名比单靠处理自然语言来得更加高效。候选产品的图片由展示产品特征的卖家提供，与查询最相关的候选产品就会在搜索结果中排名靠前。

天池平台开放了手机淘宝的真实场景多模态数据，数据集由淘宝搜索查询词和产品图像特征组成，注意数据集并未提供商品标题，开源的目的是促进跨模态检索领域的技术研究。

下图为一个示例：用户查询“豹纹女鞋”，左图被视为相关产品，右图则被视为不相关产品。

Watch and Buy 淘宝直播商品检索数据集

研究方向：物体检测、主播意图识别、多模态检索

直播带货是淘宝连接商品和消费者的重要方式，通过对直播视频中商品进行实时识别和推荐，可实现消费者边看边买的消费体验。

为提升直播中商品匹配识别的效果，依托淘宝直播海量数据，我们推出了业界最大规模的多模态视频商品检索数据集: Watch and Buy，数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对, 具有规模大、标注全、模态多、功能广的特点。可用于物体检测的算法、商品重识别算法、主播意图识别和多模态检索等多种前沿技术的研究。

Product-oriented Video Caption Datasets 面向商品的视频描述生成数据集

研究方向：视频文本生成，vedio to text generation

观看短视频已经成为人们的日常，如何针对视频内容来生成包含产品特征的文字描述对于商品的推广发挥着重要作用。本次我们开放的商品视频描述数据集，由7w+个服饰视频数据组成，具体数据包括视频本身及其关联商品属性。

下图描述了通过视频及商品本身的相关属性，产出视频描述的过程（注：图(c)中的‘Poet’为本数据集论文中使用的模型）

论文请戳：
https://arxiv.org/abs/2008.06880

Video Titling Dataset 视频标题生成数据集

研究方向：视频标题生成，vedio to text generation

视频推荐是电商领域的重要推广方式，诸如“买家秀”这种消费者生成的视频通常会传达不同消费者对某些产品不同方面的个人偏好，数量庞大。为了更有效地向潜在消费者推荐这些视频，多样化和吸引人的视频标题至关重要。

尽管买家秀有产品的评论，但是这些评论无法直接作为标题。本数据集在这样的背景下公开，目的是促进视频描述生成领域的进一步研究。本数据集的内容包括：消费者生成的视频、消费者所写的评论语句以及相关产品的属性，期望通过对买家秀视频、买家秀的评论内容和相关产品的属性，为消费者生成买家秀的视频标题。

下图为本数据集问题定义的流程简图：

论文请戳：

https://dl.acm.org/doi/epdf/10.1145/3394486.3403325

中文多模态基准评测MUGE

研究方向：图片描述生成、图片生成、跨模态检索

最后为大家介绍的是中文多模态基准评测MUGE， MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark，由达摩院联合浙江大学、天池平台共同推出。MUGE将实现多场景多任务的覆盖，其中包括理解类任务，如跨模态检索、跨模态分类等，以及生成类任务，如图文描述、基于文本的图像生成等，研究人员能够从理解能力和生成能力两大角度去评估算法模型。MUGE是业界首个中文领域的多模态评测基准，旨在帮助中文多模态研究人员全方位评估算法模型。