内容 AI：建立统一的跨媒体多模态内容理解内核

最新推荐文章于 2024-01-03 22:25:26 发布

腾讯技术工程

最新推荐文章于 2024-01-03 22:25:26 发布

阅读量3.8k

点赞数 2

本文链接：https://blog.csdn.net/Tencent_TEG/article/details/103918115

版权

作者：zixunsun@tencent.com

Jeff Dean 谈 2020 年机器学习趋势：多任务和多模式学习将成为突破口

2019 年下半年，CDG 广告、 CSIG 音视频，IEG 内容推荐、PCG 信息流、TEG 数平广告推荐和 AI 平台部团队、WXG 看一看团队内容技术专家沟通，大家在处理内容理解任务时候，都有融合多模态特征进行内容理解需求，同时大家具有很好的技术能力和研发经验。

我们希望能建立统一的跨媒体多模态内容理解内核，对新增内容理解任务，快速完成 0-1 步积累，提升模型实践加速度、降低试错成本，通过 Oteam 运行机制，扩大知识圈，共享公司内容算法团队之间的经验。（如果大家有兴趣可以加入一起交流讨论）。

技术背景

我们身处的环境本身多模态环境，人工智能要更好的理解环境，则需要具备解析多模态信息的能力。通过模态学习可以搭建能处理和连接多模态信息的模型。在内容理解领域，需要分析的模态有文本，图片，视频，语音对应的不同级别特征；其他辅助描述特征等。

当前多模态的技术落地和具体任务是强相关的。随着深度学习技术的发展，不同的研究人员在进行内容理解任务的时候，会加上更多模态的特征，并且尝试通过网络结构的改进获得更好的数据表现。然而针对最近几年不同任务上多模态学习的论文研究发现，学者们更多关注多模态的网络结构设计，而较少关注不同动作下的模型学习能力与任务、数据集之间的关联性研究（如游戏视频和体育视频的动作序列识别任务上，语音特征与光流特征融合方式如何选择）。

多模态学习研究的各个方向都可能对最终的任务表现产生作用，这些方向之间的影响和联系需要进一步分析。当前各个方向之间没有在一个统一模型下进行实验挖掘或者自动分析，难以充分复用其他任务上的研究成果进行改进。

技术方向

内容团队内容理解算法应不断提升，多模态学习技术也需要不断升级，通用框架技术具备必要的研究性和很好的落地价值，可以做到提升模型技术和业务指标表现，同时提升基于内容理解能力构建效率。模型层面可以在如下几个方向深入：1.表征：多个模态同时存在的情况下，针对具体任务动态进行模态内不同级别特征信息使用（如文本中句义、句法、字词特征；视觉中语义、边缘、色彩特征），利用注意力机制选择特征；利用生成对抗网络对形式和内容进行表征解耦的能力。2.融合：支持不同融合策略的对比，融合动作本身可以支持动态适配；研究时序特征和非时序特征的映射对齐策略。3.协同：通过协同学习，做到多模态之间的有效信息传递；结合多任务学习，增强原模型的表征能力，降低过拟合风险，适应随机噪声。

多模态研究方向分析

多模态学习目前主要有以下五个研究方向： 表征(Representation), 转化(Translation),对齐(Alignment),融合(Fusion),协同学习(Co-learning)

表征(Representation)

单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表征是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。

研究方向：

联合表征(Joint Representation)，将多个模态的信息一起映射到一个统一的多模态向量空间；

协同表征(Coordinated Representation)，将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束（例如线性相关）

（联合表征）Multimodal learning with deep boltzmann machines (NIPS 2012) 提出将 deep boltzmann machines（DBM）结构扩充到多模态领域，通过 Multimodal DBM，可以学习到多模态的联合概率分布。

在获得图像与文本间的联合概率分布后，我们在应用阶段，输入图片，利用条件概率 P(文本|图片)，生成文本特征，可以得到图片相应的文本描述；而输入文本，利用条件概率 P(图片|文本)，可以生成图片特征，通过检索出最靠近该特征向量的两个图片实例，可以得到符合文本描述的图片。

（协同表征）Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)

利用协同学习到的特征向量之间满足加减算数运算这一特性，可以搜索出与给定图片满足“指定的转换语义”的图片。

300 维的文字与图像特征 PCA 投影

难点：

如何结合异质性的来源的数据，比如文字是符号性的，图片是一个 RGB 矩阵，视频是时序的 RGB 矩阵，声音需要采样成一个一位数组；如何处理不同级别的噪音，原因是不同模态产生的噪声是不同的；如何处理数据缺失的问题。

技术方案：

转化(Translation)

多模态转化也可称为映射(Mapping)，主要是将一个模态的信息转化或映射为另一个模态的信息。

难点：

1.未知结束位(Open-ended)，例如实时翻译中，在还未得到句尾的情况下，必须实时对句子进行翻译；

2.主观评判性(Subjective)，很多模态转换问题的效果没有一个比较客观的评判标准，目标函数的确定非常主观。

技术方案：

对齐(Alignment)：

从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。

最低0.47元/天解锁文章

腾讯技术工程

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
内容 AI：建立统一的跨媒体多模态内容理解内核

作者：zixunsun@tencent.comJeff Dean 谈 2020 年机器学习趋势：多任务和多模式学习将成为突破口2019 年下半年，CDG 广告、 CSIG 音视频，IEG...
复制链接

扫一扫