赛题链接:
https://tianchi.aliyun.com/competition/entrance/231772/information
开篇之前,感谢队友的倾情付出,以及不离不弃。把我队友的博客挂这里示众,有兴趣的可以逛逛:
CV界一位不愿意透露姓名的大佬
一、数据介绍
初赛数据总共有8个文件夹,其中6个train_dataset_part(1-6)文件夹,和2个validation_dataset_part(1-2)文件夹.复赛增加了2个validation文件夹。总的来说,每个文件夹下分为图片库和视频库,两个库内均有图片标注和文本标注信息。
这里列出了每个文件夹的目录结构如下:
|____video # 直播片段数据(.mp4格式)
| |____000001.mp4
| |____000002.mp4
| |____000003.mp4
|____video_annotation # 直播片段标注数据(.json格式)
| |____000001.json
| |____000002.json
| |____000003.json
|____image #商品图数据
| |____000001 # 商品文件夹(每个商品文件夹包含当前商品的多张图,.jpg格式)
| | |____2.jpg
| | |____1.jpg
| | |____0.jpg
| |____000002
| | |____4.jpg
| | |____2.jpg
| | |____3.jpg
| | |____1.jpg
| | |____0.jpg
| |____000003
| | |____4.jpg
| | |____2.jpg
| | |____3.jpg
| | |____1.jpg
| | |____0.jpg
|____video_text #直播片段中主播讲解文本(.txt)
| |____000001.txt
| |____000002.txt
| |____000003.txt
|____image_text
| |____000001.txt
| |____000002.txt
| |____000003.txt
|____image_annotation #商品图标注数据
| |____000001 # 商品文件夹(每个商品文件夹包含当前商品多张图的标注,.json格式)
| | |____0.json
| | |____1.json
| | |____2.json
| |____000002
| | |____0.json
| | |____1.json
| | |____2.json
| | |____3.json
| | |____4.json
| |____000003
| | |____0.json
| | |____1.json
| | |____2.json
| | |____3.json
| | |____4.json
每个文件夹内的数据介绍,可参考官方链接:https://tianchi.aliyun.com/competition/entrance/231772/information
二、目标
背景
大赛希望选手能够通过商品识别的算法,根据直播视频的画面和主播的讲解,自动识别出当前讲解的商品,把对应的购买链接推荐给用户,将大大提升用户的购买体验。本赛题要求选手通过计算机视觉、自然语言处理等人工智能算法,把视频中正在讲解的商品识别出来,提升用户在淘宝直播中的购买体验。
输入
验证集和每个测试集均包含10,000个直播片段和商品匹配对。每一个直播片段将提供对应的视频帧和主播讲解语音文本,每个商品将提供商品的多张展示图和商品的文本描述,上述的信息将作为算法的输入提供给选手。
输出
对于验证集或测试集中的每一个直播片段,选手需要利用图像和文本信息从10,000个商品构成的查询库中识别出该直播片段正在讲解的商品。返回的商品信息,需要包含该直播片段讲解的商品id,该商品在直播画面中出现的视频帧号(算法检测到多帧画面均包含该商品的,返回任意一帧的序号即可),该商品在对应视频帧中检测框的位置,包含该商品的商品图的名称,该商品在该商品图中出现的检测框位置等信息,具体格式如下。
总结
简言之,该赛题的目标分为两个,第一,对视频中的帧做目标检测。第二,将视频直播商品和商品库商品做目标匹配,匹配出是商品库中的那个商品。
评价标准
比赛采用F1 Score作为综合评价算法各级别的精确率和召回率的分数。综合考量直播片段级、视频帧级、以及检测框级商品识别效果。
1、直播片段级商品识别分数 S 1 S_1 S1:算法返回正确的item_id,即视为商品预测正确
2、视频帧级商品识别分数 S 2 S_2