图像中文描述竞赛-CSDN博客

图像中文描述

用一句话描述给定图像中的主要信息，挑战中文语境下的图像理解问题。尝试自然语言处理与计算机视觉技术结合的力量

https://challenger.ai/competition/caption/subject

图像中文描述问题融合了计算机视觉与自然语言处理两个方向，是用人工智能算法解决多模式、跨领域问题的典型代表。参赛者需要对给定的每一张测试图片输出一句话的描述。描述句子要求符合自然语言习惯，点明图像中的重要信息，涵盖主要人物、场景、动作等内容。此次发布的图像描述数据集以中文描述语句为主，与同类科研任务常见的英文数据集相比，中文描述通常在句法、词法上灵活度较大，算法实现的挑战也较大。组委会将通过客观指标 $（ B L E U, M E T E O R, R O U G E_{L} 和 C I D E r ）$ 和主观评价 $（ C o h e r e n c e, R e l e v a n c e, H e l p f u l f o r B l i n d ）$ ，并结合答辩表现，对参赛队伍进行评价。

数据说明

数据形式包含图像和对应5句中文描述，以下图为例。

中文描述

1）蓝天下一个穿灰色T恤帅小伙以潇洒的姿势上篮

2）蔚蓝的天空下一位英姿飒爽的男孩在上篮

3）蓝天下一个腾空跃起的男人正在奋力地灌篮

4）一个穿着灰色运动装的男生在晴朗的天空下打篮球

5）一个短头发的男孩在篮球场上腾空跃起

结果提交说明

选手提交的预测结果需要对每一张图片输出一句预测的中文描述语句，提交的预测文件格式存储为JSON，按照以下格式进行提交:


[
    {
        "image_id":"d9a9a8cfb9fdebe3f4f6996756ae23ae0e473d0c",
        "caption": "蓝天下一个男孩在投篮"
    },
    {
        "image_id":"a0f6bdc065a602b7b84a67fb8d14ce403d902e0d",
        "caption": "一个小男孩在安静的小河边钓鱼"
    },
    ...
]

评价标准

本赛道采用客观和主观相结合的评价标准，和答辩环节得分的总和 (根据主客观得分优秀者进入答辩环节）。

客观评价总览

客观的评价标准包括：BLEU,METEOR,ROUGEL,CIDEr。根据这四个评价标准得到一个客观评价的得分。^[1]

\begin{matrix} S_{m_{1}} (team) = \frac{1}{4} S (team@ B L E U @4) + \frac{1}{4} S (team@ M E T E O R) + \frac{1}{4} S (team@ R O U G E_{L}) + \frac{1}{4} S (team@ C I D E r_{D}) \end{matrix}

其中的S(team)@METEOR表示在METEOR标准下进行标准化后的得分，Sm1(team)表示客观评价分数的加权平均值，然后对分数Sm1(team)进行标准化处理得到的客观评价分数。

我们将提供验证脚本，帮助选手在线下测试模型效果。测试脚本、以及详细使用方法，将与验证数据集同时发布。

提示：图像中文描述比赛评测过程使用jieba 0.38进行中文分词。

主观评价总览

主观的评价包括：

对测试结果中的子集由评委团进行主观评价，对每个代表队的候选句子进行打分（1-5），分数越高越好。打分遵循三个原则。

流畅度(Coherence)：评价生成语句的逻辑和可读性。

相关性(Relevance)：评价生成语句是否包含对应的图像中有的重要的物体/动作/事件等。

助盲性(Help_For_Blind)：评价生成语句对一个有视力缺陷的人去理解图像有帮助的程度。

得到主观评价排名m2，公式如下:

\begin{matrix} S_{m_{2}} (team) = \frac{1}{3} S (team@Coherence) + \frac{1}{3} S (team@Relevance) + \frac{1}{3} S (team@Helpful_for_Blind) \end{matrix}

其中 $S (t e a m) @ C o h e r e n c e$ 表示在 $C o h e r e n c e$ 上进行标准化后的分数。

综合主观和客观评价

综合主客观评价排名选出优秀的团队参加最终的答辩

S_{m_{1} m_{2}} (team) = S_{m_{1}} (team) + S_{m_{2}} (team)

对 $S_{m_{1} m_{2}}$ 分数进行从高到低排序，优选出若干只队伍进入答辩环节。

答辩分数

我们根据主客观的排名情况，选择若干只优秀的队伍进入最终答辩环节， $S_{m_{3}} (t e a m)$ 为答辩评分标准化后的分数。

$S_{m_{3}} (team)$ is the presentation performance score. Similarly $S_{m_{3}} (team)$ needs to be normalized.

最终得分

S_{m_{1} m_{2} m_{3}} (team) = S_{m_{1}} (team) + S_{m_{2}} (team) + S_{m_{3}} (team)

其中 $S_{m_{1} m_{2} m_{3}} (t e a m)$ 为综合客观指标、主观指标与答辩得分的最终分数，权重待定。本次比赛将根据三项加权的最终分数从高到低进行排名。

详细客观评价方法

本次图像描述比赛客观评价采用四种常用评价标准： $B L E U$ , $M E T E O R$ , $R O U G E$ 和 $C I D E r$ 。

$B L E U$ (Bilingual Evaluation Understudy)

$B L E U$ 是一种通过计算候选译文和参考译文中 $n$ 元词共同出现的程度，来衡量候选句子与参考句子相似度的机器翻译度量方法。计算公式如下:

B L E U_{N} (C, S) = b (C, S) exp (N \sum n = 1 ω_{n} log C P_{n} (C, S))

C P_{n} (C, S) = \frac{\sum_{i} \sum_{k} min (h_{k} (c_{i}), {max}_{j \in m} h_{k} (s_{i j}))}{\sum_{i} \sum_{k} h_{k} (c_{i})}

b (C, S) = {\begin{matrix} 1 & if l_{C} > l_{S} e^{1 - l_{S} / l_{C}} & if l_{C} \leq l_{S} \end{matrix}

其中候选语句(待评测语句)可以表示为 $C$ ，而对应的一组参考语句为 $S_{i} = {s_{i 1}, s_{i 2}, \dots} \in S$ 。n-gram表示 $n$ 元词，令 $ω_{k}$ 表示第k组的n-gram。 $h_{k} (c_{i})$ 表示 $ω_{k}$ 在候选语句中 $c_{i}$ 的出现次数， $h_{k} (s_{i j})$ 表示的是 $ω_{k}$ 在参考语句 $s_{i j}$ 中的出现的次数，其中 $C P_{n} (C, S)$ 是一个精确度度量。前面的 $b (C, S)$ 是 $B L E U_{N}$ 的BP惩罚因子。

其中 $l_{c}$ 表示候选语句 $c_{i}$ 的长度， $l_{s}$ 表示参考语句 $s_{i j}$ 的有效长度。

$R O U G E_{L}$

$R O U G E$ 是用来评价文本摘要算法的自动评价标准集，本次图像中文描述比赛主要采用其中的 $R O U G E_{L}$ 作为评价标准。

$R O U G E_{L}$ 是基于LCS（Longest Common Subsequence）的一种测量方法。LCS是序列 $X$ 和序列 $Y$ 的最大长度公共子序列的统称。 $c_{i}$ 表示的待评价语句， $s_{i j}$ 表示参考语句。

R O U G E_{L} (c_{i}, S_{i}) = \frac{(1 + β^{2}) R_{l} P_{l}}{R_{l} + β^{2} P_{l}}

其中 $R_{l}$ 和 $P_{l}$ 的定义是:

R_{l} = max j \frac{l (c_{i}, s_{i j})}{| s_{i j} |}

P_{l} = max j \frac{l (c_{i}, s_{i j})}{| c_{i} |}

其中 $β = \frac{R_{l}}{P_{l}}$ 。

$M E T E O R$

$M E T E O R$ 是用来评价机器翻译输出的标准。该方法将候选语句和参考语句的词进行逐一匹配，METEOR需要预先给定一组类似于WordNet的同义词库，通过最小化对应语句中连续有序的块来得出。METEOR的计算为对应候选语句和参考语句之间的准确率和召回率的调和平均。METEOR的计算公式：

M E T E O R = (1 - P e n) F_{m e a n}

P e n = γ {(\frac{c h}{m})}^{θ}

其中 $P e n$ 的定义是：

$P e n = γ {(\frac{c h}{m})}^{θ}$

其中 $F_{m e a n}$ 的定义是：

F_{m e a n} = \frac{P_{m} R_{m}}{α P_{m} + (1 - α) R_{m}}

其中 $P_{m}$ 的定义是：

P_{m} = \frac{| m |}{\sum_{k} h_{k} (c_{i})}

其中 $R_{m}$ 的定义是：

R_{m} = \frac{| m |}{\sum_{k} h_{k} (s_{i j})}

其中， $α$ 、 $γ$ 和 $θ$ 均为评价的默认参数，m是基于类似于WordNet中文同义词库校准的同义词库。 $F_{m e a n}$ 是上文所说的LCS两个句子的相似性。

$C I D E r$ (Consensus-based Image Description Evaluation)

$C I D E r$ 通过对每个n元组进行Term Frequency Inverse Document Frequency (TF-IDF) 权重计算，来衡量图像描述的一致性。

C I D E r (c_{i}, S_{i}) = N \sum n = 1 ω_{n} C I D E r_{n} (c_{i}, S_{i})

其中的 $C I D E r_{n} (c_{i}, S_{i})$ 的定义是:

C I D E r_{n} (c_{i}, S_{i}) = \frac{1}{m} \sum j \frac{g^{n} (c_{i}) \cdot g^{n} (s_{i j})}{∥ g^{n} (c_{i}) ∥_{2} \cdot ∥ g^{n} (s_{i j}) ∥_{2}}

g_{k} (s_{i j}) = \frac{h_{k} (s_{i j})}{\sum_{ω_{l} \in Ω} h_{l} (s_{i j})} log (\frac{| I |}{\sum_{I_{p} \in I} min (1, \sum_{q} h_{k} (s_{p q}))})

其中 $I$ 表示所有图片的集合， $Ω$ 表示的是n-grams的词表， $g^{n} (c_{i j})$ 和 $g^{n} (s_{i j})$ 是TF-IDF的向量，其他符号在 $B L E U$ 处有定义。

分数标准化方式

由于每个指标的范围与分布都不尽相同，所以在计算加权平均值之前，我们需要将所有分数进行标准化处理。具体的标准化公式为：

~ x = \frac{x}{^σ}

其中 $x$ 为选手在该项评价指标所得的绝对分数， $~ x$ 为标准化后的相对分数， $^σ$ 是该项评价指标上所有选手的绝对分数的标准差。

^μ = N \sum i = 1 x_{i} / N

{^σ}^{2} = N \sum i = 1 {(x_{i} -^μ)}^{2} / (N - 1)

其中 $^μ$ 是该项评价指标上所有选手的绝对分数的均值。

[1] Lin, Tsung-Yi and Maire, Michael and Belongie, Serge and Hays, James and Perona, Pietro and Ramanan, Deva and Dollar, Piotr and Zitnick, C Lawrence, "Microsoft coco: Common objects in context" in European conference on computer vision, 740-755, Springer, 2014.↩