【天池大赛】淘宝直播商品识别

最新推荐文章于 2024-04-10 18:17:13 发布

我爱计算机视觉

最新推荐文章于 2024-04-10 18:17:13 发布

阅读量1.9k

点赞数 1

点击我爱计算机视觉标星，更快获取CVML新技术

背景介绍

直播带货是淘宝连接商品和消费者的重要方式，买家在观看直播的过程对喜爱的商品进行购买。

在单场直播中，主播常常会对成百上千的商品进行展示、试用和介绍，买家如果想购买正在讲解的商品，则需要在该直播关联的商品列表（包含成百上千个商品）中手动去挑选，非常影响用户的购买效率和用户体验。

如果能够通过商品识别的算法，根据直播视频的画面和主播的讲解，自动识别出当前讲解的商品，把对应的购买链接推荐给用户，将大大提升用户的购买体验。

本赛题要求选手通过计算机视觉、自然语言处理等人工智能算法，把视频中正在讲解的商品识别出来，提升用户在淘宝直播中的购买体验。

竞赛题目

比赛中，主办方将提供一个包含大量直播片段的视频库和一个包含大量商品的商品库，其中视频库中包含直播片段的视频帧和该时间段对应的主播讲解语音的文本，商品库中包含商品的多张展示图和对商品的文本描述。

对于视频库中的每一个直播片段，选手需要从商品库中检索和识别出直播中正在讲解的具体商品，如下图所示。

竞赛数据

术语说明

匹配对：直播直播片段和对应讲解的商品构成一个匹配对
展示方式（display）：衣服的展示方式，分为由主播或者模特进行试穿和纯商品展示
视角（viewpoint）：图像中服饰商品的拍摄角度，分为正面、侧面、背面
实例编号（instance_id）：图像中每个服饰检测框视为一个实例，具有唯一的实例编号，具有相同编号的实例为同一个商品

训练数据

训练数据主要由两部分构成，分为直播片段视频帧及对应的讲解文本、商品展示图及商品文本介绍，上述信息将提供为选手作为算法的输入信息。

数据的标注主要包括视频帧和商品图中的服饰信息。视频帧中服饰标注精确到检测框的粒度，主要包括服饰的检测框位置、对应的服饰类别、实例编号、是否为主播试穿、拍摄视角。

商品的标注与视频帧标注类似，主要包括商品展示图中的服饰标注和商品的文本描述，其中每一个商品展示图中标注了服饰的检测框位置、对应的服饰类别、实例编号、是否为主播试穿、拍摄视角。

视频帧中的商品和商品图中的商品通过实例编号关联起来，同一个实例编号对应同一个商品。选手可以使用上述信息进行模型的训练。标注的示例如下图所示。

数据结构

训练集数据组织形式如下：

数据：

+ video文件夹：直播片段数据（.mp4格式）
+ video_text 文件夹：直播片段中主播讲解文本（.txt）
+ image文件夹：商品图数据
  - 商品文件夹（每个商品文件夹包含当前商品的多张图，.jpg格式）
+ image_text 文件夹：商品文本描述 （.txt)

数据标注：

+ video_annotation文件夹：直播片段标注数据（.json格式）
+ image_annotation文件夹：商品图标注数据
  - 商品文件夹（每个商品文件夹包含当前商品多张图的标注，.json格式）

video文件夹、video_text 文件夹、image文件夹、image_text 文件夹为输入数据，video_annotation文件夹和image_annotation文件夹为数据的标注。所有直播片段、商品和相应的标注均以0开头的6位数字作为id命名，

同一个id的直播片段和商品构成一个匹配对。如000001.mp4 /000001.txt/ 000001.json (直播片段、文本及标注)、000001/1.jpg /000001.txt / 000001/1.json(商品图、文本及标注)，视频、讲解文本和对应标注json具有相同文件名，商品图、商品描述文本和对应标注json具有相同文件名。

直播片段标注数据json格式如下：

{
    "video_id":"000001",
    "frames":[
        {
            "frame_index":1,
            "annotations":[
                {
                    "label":"短袖连衣裙",
                    "viewpoint":1,
                    "display":1,
                    "instance_id":1,
                    "box":[
                        10,
                        10,
                        100,
                        200
                    ]
                },
                ...
            ]
        },
        ...
    ]
}

其中，video_id字段为直播片段编号，frames字段是一个列表，包括多张视频帧标注（间隔40帧（2秒）标注一帧）。

每一个视频帧标注中，frame_index字段表示当前视频帧编号（0～399），boxes字段为该帧画面中标注的多个检测框，

每一个检测框标注包括服饰类型字段label（共22类，具体类别见下图），视角字段viewpoint（0：正面，1：背面，2：侧面），展示方式字段display（0：纯商品展示，1：试穿展示），实例编号字段instance_id（商品图和视频帧中标注了大于0的相同instance_id的检测框为同一件商品，具有对应关系，instance_id为0表示不具有匹配关系），

以及标注框位置字段box（xmin, ymin, xmax, ymax）。

商品图标注数据json格式如下：

{
  "item_id":"000001",
    "img_name":"1",
    "annotations":[
        {
            "label":"短袖连衣裙",
            "viewpoint":1,
            "display":1,
            "instance_id":1,
            "box":[
                10,
                10,
                100,
                200
            ]
        },
        ...
    ]
}

其中item_id为商品id信息字段，img_name为商品文件夹下的商品图名称，其余字段与单张视频帧标注格式一致。

数据评测

验证集和每个测试集均包含10,000个直播片段和商品匹配对。每一个直播片段将提供对应的视频帧和主播讲解语音文本，每个商品将提供商品的多张展示图和商品的文本描述，上述的信息将作为算法的输入提供给选手。

对于验证集或测试集中的每一个直播片段，选手需要利用图像和文本信息从10,000个商品构成的查询库中识别出该直播片段正在讲解的商品。

返回的商品信息，需要包含该直播片段讲解的商品id，该商品在直播画面中出现的视频帧号（算法检测到多帧画面均包含该商品的，返回任意一帧的序号即可），该商品在对应视频帧中检测框的位置，包含该商品的商品图的名称，该商品在该商品图中出现的检测框位置等信息，具体格式如下。

算法输出格式

算法根据输入数据，识别讲解商品，返回如下json格式的算法结果：

[
    {
        "video_id":"000001",
        "result":[
          {
        "item_id":"100002",
        "frame_index":10,
        "img_name":"1",
        "item_box":[10,10,200,200],
        "frame_box":[10,10,200,200],
      }
    ]
    },
    {
        "video_id":"000002",
        "result":[]
    },
    ...
]

参赛者需返回视频库中每一个直播片段中正在讲解的商品信息，组织成上述格式，其中，video_id为直播片段id，result为结果列表，包含字典形式的结果数据，没有则为空，其中item_id为商品id，frame_index为匹配到的视频帧编号，img_name为匹配商品图文件名，item_box为商品图中匹配商品检测框，frame_box 为视频帧中匹配商品检测框。

验证集还将提供标注信息，格式同训练集一致。参赛选手可使用评测脚本自行验证。

评判标准

算法性能要求：

平台将提供统一环境运行选手算法，将对运行时间做出限制，如果超过该时间，则判定算法结果无效。

算法效果评价

比赛评分将综合考量直播片段级、视频帧级、以及检测框级商品识别效果。比赛采用F1 Score作为综合评价算法各级别的精确率和召回率的分数：

其中，PP为算法精确率，RR为算法召回率，NTP为算法预测正确的商品数量， NP为算法检测出存在对应匹配关系的商品总数量，NGT为人工标注出的正确匹配商品数量。

直播片段级商品识别分数S1：
算法返回正确的item_id，即视为商品预测正确
视频帧级商品识别分数S2：
算法返回正确的item_id，并且返回视频帧画面中确实存在该商品，即视为商品预测正确
检测框级商品识别分数S3：
算法返回正确的item_id，返回视频帧画面中确实存在该商品，并且返回商品图中算法预测检测框与标注检测框IOU>0.5，即视为商品预测正确

最终分数由上述三项加权得到：