淘宝直播商品识别大赛

最新推荐文章于 2024-04-10 18:17:13 发布

吾宁

最新推荐文章于 2024-04-10 18:17:13 发布

阅读量2.4k

点赞数 3

文章标签：图像识别 tensorflow 计算机视觉自然语言处理

本文链接：https://blog.csdn.net/weixin_42926836/article/details/107387737

版权

该博客详细介绍了淘宝直播商品识别大赛的赛题背景、目标、数据特点以及Baseline模型Match-RCNN。作者团队基于TensorFlow实现了Match-RCNN，并对其进行了优化，包括目标检测、匹配速度和效果的提升。通过多视图CCA和多模态融合技术，模型效果得到显著提升，尤其是在目标检索的速度和准确性上。

摘要由CSDN通过智能技术生成

赛题链接：
https://tianchi.aliyun.com/competition/entrance/231772/information

开篇之前，感谢队友的倾情付出，以及不离不弃。把我队友的博客挂这里示众，有兴趣的可以逛逛：
CV界一位不愿意透露姓名的大佬

一、数据介绍

初赛数据总共有8个文件夹，其中6个train_dataset_part(1-6)文件夹，和2个validation_dataset_part(1-2)文件夹.复赛增加了2个validation文件夹。总的来说，每个文件夹下分为图片库和视频库，两个库内均有图片标注和文本标注信息。

这里列出了每个文件夹的目录结构如下：

|____video # 直播片段数据（.mp4格式）
| |____000001.mp4
| |____000002.mp4
| |____000003.mp4
|____video_annotation # 直播片段标注数据（.json格式）
| |____000001.json
| |____000002.json
| |____000003.json
|____image #商品图数据
| |____000001 # 商品文件夹（每个商品文件夹包含当前商品的多张图，.jpg格式）
| | |____2.jpg
| | |____1.jpg
| | |____0.jpg
| |____000002
| | |____4.jpg
| | |____2.jpg
| | |____3.jpg
| | |____1.jpg
| | |____0.jpg
| |____000003
| | |____4.jpg
| | |____2.jpg
| | |____3.jpg
| | |____1.jpg
| | |____0.jpg
|____video_text #直播片段中主播讲解文本（.txt）
| |____000001.txt
| |____000002.txt
| |____000003.txt
|____image_text
| |____000001.txt
| |____000002.txt
| |____000003.txt
|____image_annotation #商品图标注数据
| |____000001 # 商品文件夹（每个商品文件夹包含当前商品多张图的标注，.json格式）
| | |____0.json
| | |____1.json
| | |____2.json
| |____000002
| | |____0.json
| | |____1.json
| | |____2.json
| | |____3.json
| | |____4.json
| |____000003
| | |____0.json
| | |____1.json
| | |____2.json
| | |____3.json
| | |____4.json

每个文件夹内的数据介绍，可参考官方链接：https://tianchi.aliyun.com/competition/entrance/231772/information

二、目标

背景

大赛希望选手能够通过商品识别的算法，根据直播视频的画面和主播的讲解，自动识别出当前讲解的商品，把对应的购买链接推荐给用户，将大大提升用户的购买体验。本赛题要求选手通过计算机视觉、自然语言处理等人工智能算法，把视频中正在讲解的商品识别出来，提升用户在淘宝直播中的购买体验。

输入

验证集和每个测试集均包含10,000个直播片段和商品匹配对。每一个直播片段将提供对应的视频帧和主播讲解语音文本，每个商品将提供商品的多张展示图和商品的文本描述，上述的信息将作为算法的输入提供给选手。

输出

对于验证集或测试集中的每一个直播片段，选手需要利用图像和文本信息从10,000个商品构成的查询库中识别出该直播片段正在讲解的商品。返回的商品信息，需要包含该直播片段讲解的商品id，该商品在直播画面中出现的视频帧号（算法检测到多帧画面均包含该商品的，返回任意一帧的序号即可），该商品在对应视频帧中检测框的位置，包含该商品的商品图的名称，该商品在该商品图中出现的检测框位置等信息，具体格式如下。