目录
Problem Definition of Multi-output Learning
Abstract
传统的multi-output learning 包括 multi-label learning, multi-dimensional learning, multi-target regression and others。
Introduction
- 4Vs:volume, velocity, variety, veracity。
- 通常 4Vs 指的是输入数据,但亦可用于输出标记,但因此也引入一系列挑战
- Volume 指的是输出标记的爆炸式增长,这给 MOL 带来了很多挑战。首先输出空间会非常庞大,第二是标记标注者的负担将很重,而使得数据集中标注数量过少导致训练困难。结果就是,这会导致在测试阶段出现从未见过的输出。第三,标记不平衡问题。
- Velocity 是指如何快速获取输出标签,其中包括 concept drift 的现象[6]。 Velocity 会因输出分布的变化而带来挑战,目标输出会以无法预料的方式随时间变化。
- Variety 是指输出标签的异质本质。 输出标记是从多个来源收集的,这些标记是具有不同结构的各种数据格式。 特别是,具有复杂结构的输出标签可能会在 MOL 中带来多个挑战,例如找到一种对输出依赖度建模的适当方法,或者如何设计多元损失函数,或者如何设计有效的算法。
- Veracity 是指输出标记的质量差异。诸如噪声、缺失值、不完备数据、异常等等都是 Veracity 的特征。
MOL 已吸引了许多机器学习学科的极大关注,例如 part-of-speech sequence tagging, language translation, NLP, motion tracking, optical character recognition in CV, document categorization, ranking in information retrieval 等等。
输出标记在 MOL 中起着重要作用,因为模型性能很大程度上取决于这些标记的质量。图一描述了一个标记生命周期的三个阶段:annotation, representation, evaluation.
数据标记
- Label annotation 需要人类根据语义标注一条数据,这一步骤是训练 MOL 模型的关键步骤。
- 我们可以直接使用数据的基本注释,或将其汇总便于进一步分析。
- 根据任务的不同,label annotation 有多种类型。
- 用于 classification 的图片要使用标签或关键字标记
- segmentation 要求图像中的每个对象都用框框定位出来
- 字幕任务将要求图像带有一些文本描述的标记
-
获取标记的途径
- 社交媒体可帮助研究者搜寻有标记的数据集。例如 Facebook 和 Flickr,其用户可发布带有标签的图片和评论。诸如 WordNet 和 Wikipedia 之类的开源集合亦是一种来源。
- 众包平台有偿招募人们来帮助研究者标记数据。由于众包的效率,该方法现非常流行。ImageNet [7]就是众包的数据集。它的图像数据库被组织成了 WordNet 层次结构。
- 注释工具可用来注释不同类型的数据。
- LabelMe [8]为用户提供了一种便捷的方式来标记图像中的每个对象并纠正其他用户注释的标记。
- BRAT [9]专门为自然语言处理任务而设计,例如命名实体识别和POS标记(词性标记)。
- TURKSENT [10]是一种为社交媒体推文情感分析任务而设计的注释工具。
五种标记表示形式
- binary vector
- real-valued vectors
- binary vectors of the associations between a tag's attributes
- hierarchical label embedding vector捕获标签中的结构信息。
- 有语义的词向量
Label evaluation
- 注释的质量高不高:前述注释方法在没有专家的情况下,极有可能导致噪音,比如注释缺失和错误的注释。 产生噪声标签的原因多种多样,例如,使用缺乏所需领域知识的众包工作者,社交媒体用户的图像或推文中包含不相关的标签,或字幕中的文字模糊不清。
- 所使用的 Label Representation 是否能很好地表示标签:输出标记也可能具有内部结构,通常,此结构信息对于 MOL 的性能至关重要。但是,让 label representation 有效整合结构信息并非易事。这是因为通常数据很多,并且需要领域知识来定义其结构。此外,输出空间可能包含歧义。例如,在 NLP 中使用 BOW 作为一个标记空间的 Representation,但是 BOW 包含词义模糊性(因为两个不同的词可能具有相同的含义,而一个词可能指的是多种含义)
- 提供的标记集合是否足以覆盖数据集:为数据注释构建一个 label set 需要专家经验。 另外,常见的是,可能由于数据的快速增长或某些标记的出现率低,所提供的 label set 没有足够的数据 label。 因此,测试数据中可能会出现未见标记,从而导致 open-set[16],zero-shot[17], concept drift[18] 等问题。
Multi-output learning
与传统的 SOL 相反,MOL 可以同时预测多个输出。输出可以具有各种类型和结构,可以解决的问题是多种多样的。
Myriads of Output Structures
复杂决策任务的发展导致了具有复杂结构的新输出形式。随着社交媒体,社交网络和各种在线服务的普及,研究人员可以收集到各种各样的输出标记。输出标记可以是任何东西:文本,图像,音频或视频,也可以是多媒体的组合。举两个例子:
- - 以一个长文档作为输入,输出可能是用文本形式表示的输入的一个综合
- - 给定一些文本片段,输出可能是图像,其内容由输入文本描述
- - 根据输入可生成音频
除了不同的输出类型外,还有许多可能的输出结构。在这里,我们使用 Fig2 中的示例给出几种典型的输出结构,以图像作为输入,以此说明在所有不同输入类型上可能有多少个输出结构。
Independent Vector
Independent Vector 是具有孤立维度的向量,其中每个维度代表一个特定的标签,不一定依赖于其他标签。Binary vector 可用于将给定数据表示成 tags, attributes, BOW,bag-of-visual-words, hash codes, etc。Real-valued vectors 为每个维度加上一个权重,以表示实例与对应标记的强度。 如图2(1)所示,可以使用一个 Independent Vector 表示图像的标签,其中所有标记——People, dinner, table, wine 的权重均相等。
应用:annotation or classification of text, images, or video with binary vectors [19]–[21], demand or energy prediction with real-valued vectors [23]。
Distribution
与 Independent Vector 不同,Distribution 会提供一个概率信息(描述度)。 在图2(2)中,权重最大的标签是 People。
应用:head pose estimation[25],facial age estimation[26],text mining[27]。
Ranking
输出也可能以 ranking 的形式出现,ranking 会显示从最重要到最不重要的标签排序。Distribution learning model 的结果可以转换为 ranking,但是一个 ranking model 并不仅限于 Distribution learning model。
应用:text categorization [28], question answering [29], visual object recognition [30]
Text
Text 可以是关键字、句子、段落甚至是文档。图2(4)举了个例子,text output 是图片的字幕 "People are having dinner"。
应用:document summarization [45], paragraph generation [46].
Sequence
Sequence 输出指的是从一个 label set 中选出的一些元素。序列根据当前输入以及先前元素的输出来预测当前元素。输出序列对应于输入序列。
例如,在语音识别中,输出是与给定音频序列相对应的文本序列[47]。
在翻译任务中,输出是一个句子[32]。 在图2(5)所示的例子中,输入是图片的字幕,输出的是字幕中每个单词的词性(POS)的标记序列。
Tree
Tree output 本质上是层次结构形式的输出。输出(通常是标签)具有内部结构,其中每个输出都有一个标记,该标记连接它在树中的祖先节点。 例如,在语法分析[35]中,如图2(6)所示,一个输入语句的每个输出都是 POS 标签,而整个输出是一个解析树。 "People" 被标记为名词 N,但根据树,它也是名词短语 NP。
Image
Image 是一种特殊的输出形式,它由多重像素值组成,其中的每个像素都根据输入以及其周围的像素进行预测。 图2(7)展示了 Super-resolution construction[37]。Super-resolution construction 是指从低分辨率图像构建高分辨率图像。
应用:Super-resolution construction, text-to-image synthesis(generates images from natural language descriptions) [48], face generation [49].
Bounding Box
常用于目标检测。在 Fig2(8) 中,每个人脸都由边界框定位。
Link
Links output 用以描述网络中的两个节点的关联。Fig2(9) 给出了一个任务,该任务用于预测两个当前无链接的用户在给定分区的社交网络将来是否能成为朋友,边缘代表用户之间的友谊。
Graph
Graph 通常用以对彼此的关系建模。它们由一组节点和边组成,其中一个节点代表一个对象,一个边代表两个对象之间的关系。
例如,场景图 [50] 通常作为描述图像内容 [34] 的一种方式输出。Fig2(10) 显示,给定输入图像,输出是图形定义,其中节点是图像中出现的对象,即 "people", "dinner", "table", "wine",边缘是这些对象之间的关系。场景图对于诸如 image generation[51], visual question answering[52] 之类的任务非常有用。
Problem Definition of Multi-output Learning
Multi-label Learning
其任务是学习一个函数 f(⋅)f(⋅) 来预测未见实例的 label sets。此任务中,每个实例都与一系列标记相关联并且由一个 sparse binary label vector 表示。
Multi-target Regression
其目的是对一个实例同时预测多个 real-valued output variable。在此,每个 output variable 的值表示该实例与对应标记的关联强度。
Label Distribution Learning
LDL 决定了每个标记的相对重要性。这与 MLL 不同,MLL 仅仅是简单预测实例所关联的一系列标记。
Label Ranking
在 label ranking 中,每个实例都与多个标签的排序相关联。因此,问题的输出是每个实例的所有标签的整体顺序。
Sequence Alignment Learning
识别两个或多个序列之间的关系
Network Analysis
NA探索网络结构中对象之间的关系,链路预测是该子字段中的一项任务。
Data Generation
DG旨在创建并输出特定分布的结构化数据。
Semantic Retrieval
MOL的特例
Multi-task Learning
- MTL 的目的是通过同时学习多个相关任务来提高模型泛化能力[62], [63]。
- 问题的每个任务输出一个单独的 label 或 value,这与多输出相类似。
- MTL 利用任务之间的相关性来改善模型的性能。
- MTL 和 MOL 的差异是,MTL 中不同的任务可能在不同的训练集(特征)上训练,但是 MOL 中是共享一个训练集的。