内容 AI:建立统一的跨媒体多模态内容理解内核

作者:zixunsun@tencent.com

Jeff Dean 谈 2020 年机器学习趋势:多任务和多模式学习将成为突破口

2019 年下半年,CDG 广告、 CSIG 音视频,IEG 内容推荐、PCG 信息流、TEG 数平广告推荐和 AI 平台部团队、WXG 看一看团队内容技术专家沟通,大家在处理内容理解任务时候,都有融合多模态特征进行内容理解需求,同时大家具有很好的技术能力和研发经验。

我们希望能建立统一的跨媒体多模态内容理解内核,对新增内容理解任务,快速完成 0-1 步积累,提升模型实践加速度、降低试错成本,通过 Oteam 运行机制,扩大知识圈,共享公司内容算法团队之间的经验。(如果大家有兴趣可以加入一起交流讨论)。

技术背景

我们身处的环境本身多模态环境,人工智能要更好的理解环境,则需要具备解析多模态信息的能力。通过模态学习可以搭建能处理和连接多模态信息的模型。在内容理解领域,需要分析的模态有文本,图片,视频,语音对应的不同级别特征;其他辅助描述特征等。

当前多模态的技术落地和具体任务是强相关的。随着深度学习技术的发展,不同的研究人员在进行内容理解任务的时候,会加上更多模态的特征,并且尝试通过网络结构的改进获得更好的数据表现。然而针对最近几年不同任务上多模态学习的论文研究发现,学者们更多关注多模态的网络结构设计,而较少关注不同动作下的模型学习能力与任务、数据集之间的关联性研究(如游戏视频和体育视频的动作序列识别任务上,语音特征与光流特征融合方式如何选择)。

多模态学习研究的各个方向都可能对最终的任务表现产生作用,这些方向之间的影响和联系需要进一步分析。当前各个方向之间没有在一个统一模型下进行实验挖掘或者自动分析,难以充分复用其他任务上的研究成果进行改进。

技术方向

内容团队内容理解算法应不断提升,多模态学习技术也需要不断升级,通用框架技术具备必要的研究性和很好的落地价值,可以做到提升模型技术和业务指标表现,同时提升基于内容理解能力构建效率。模型层面可以在如下几个方向深入:1.表征:多个模态同时存在的情况下,针对具体任务动态进行模态内不同级别特征信息使用(如文本中句义、句法、字词特征;视觉中语义、边缘、色彩特征),利用注意力机制选择特征;利用生成对抗网络对形式和内容进行表征解耦的能力。2.融合:支持不同融合策略的对比,融合动作本身可以支持动态适配;研究时序特征和非时序特征的映射对齐策略。3.协同:通过协同学习,做到多模态之间的有效信息传递;结合多任务学习,增强原模型的表征能力,降低过拟合风险,适应随机噪声。

相关任务

(1)内容结构化分析:视频类:视频分类[15-18],视频语义标签,片段重要性/高光评价[25-27],视频质量评价,视频动作序列分析;图文类:
图文标签,图文分类,图文主题词提取,文本情感分析[19,20]。

(2)内容质量评价:图文质量评级,假新闻检测[21-23],标题党检测[28,29]。

(3)内容创作生成:视频与图像描述[11,12,14],视频 VQA[13],问答生成[32]。等场景任务作为内容平台任务的底层框架。

尤其是内容质量评价领域:色情、赌博、迷信、暴力、低俗等内容识别检测任务之间具有相近联系,单一内容可能具备多个维度特征。在一个多模态框架下通过结合多任务训练方式提升整体表现。

多模态研究方向分析

多模态学习目前主要有以下五个研究方向: 表征(Representation), 转化(Translation),对齐(Alignment),融合(Fusion),协同学习(Co-learning)

表征(Representation)

单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表征是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。

研究方向:

联合表征(Joint Representation),将多个模态的信息一起映射到一个统一的多模态向量空间;

协同表征(Coordinated Representation),将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)

(联合表征)Multimodal learning with deep boltzmann machines (NIPS 2012) 提出将 deep boltzmann machines(DBM) 结构扩充到多模态领域,通过 Multimodal DBM,可以学习到多模态的联合概率分布

在获得图像与文本间的联合概率分布后,我们在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片。

(协同表征)Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)


利用协同学习到的特征向量之间满足加减算数运算这一特性,可以搜索出与给定图片满足“指定的转换语义”的图片。

300 维的文字与图像特征 PCA 投影


难点:

如何结合异质性的来源的数据,比如文字是符号性的,图片是一个 RGB 矩阵,视频是时序的 RGB 矩阵,声音需要采样成一个一位数组;如何处理不同级别的噪音,原因是不同模态产生的噪声是不同的;如何处理数据缺失的问题。

技术方案:

转化(Translation)

多模态转化也可称为映射(Mapping),主要是将一个模态的信息转化或映射为另一个模态的信息。

相关任务:

机器翻译(Machine Translation):将输入的语言 A(即时)翻译为另一种语言 B。类似的还有唇读(Lip Reading)和语音翻译 (Speech Translation),分别将唇部视觉和语音信息转换为文本信息。

图片描述(Image Captioning)与视频描述(Video Captioning):对给定的图片/视频形成一段文字描述,以表达图片/视频的内容。

语音合成(Speech Synthesis):根据输入的文本信息,自动合成一段语音信号。

难点:

1.未知结束位(Open-ended),例如实时翻译中,在还未得到句尾的情况下,必须实时对句子进行翻译;

2.主观评判性(Subjective),很多模态转换问题的效果没有一个比较客观的评判标准,目标函数的确定非常主观。

技术方案:

对齐(Alignment):

从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值