CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期(CIPS ATT25)

跨视觉语言模态的联合语义建模和推理——魏忠钰

1. 匹配

2. Vision-based Text Generation Evalution

主流:深度神经网络的Encoder-Decoder框架

Visual Genome:短的信息、物体关系的标注
请添加图片描述

3. VQA

请添加图片描述

Visual Commonsense Reasoning (VCR)基于常识的视觉推理

请添加图片描述

跨模态表征

请添加图片描述

Contrastive cross-modality representation learning对比跨模态表征学习

文本:Transformer可以考虑到任何词之间的关系
视觉:Transformer(Swin Transformer)
请添加图片描述
跨模态视觉和语义的隐藏空间。
图片往语义空间映射:文本不动,视觉向文本的对齐
请添加图片描述
请添加图片描述
找负样本请添加图片描述
极难负样本
请添加图片描述
负样本采样(学决策平面):batch——数据集里找负样本
请添加图片描述
三元组(图片,正样本,负样本)
请添加图片描述
预训练模型中使用Loss
请添加图片描述

Cross-modality representation learning via Structure Semantics 基于结构语义的跨模态表示学习

Faster-RCNN进行目标检测(RoI)
请添加图片描述
Scene Graph:Faster RCNN发现物体,查找两个物体之间的关系。
请添加图片描述
图像描述:是不是覆盖了核心语义
SPICE:从句子构造场景图的工具。
请添加图片描述
场景图:捕捉信息工具。使用特征,辅助任务。
场景图足够描绘图像语义?文本有一些是抽象语义。高层语义需要对场景图进行扩展。
请添加图片描述
抽象场景概念
请添加图片描述

  1. 场景图辅助
  2. 场景图作为多粒度语义标签
    构建分层语义树
    请添加图片描述

Cross-modality pre-training Models 跨模态预训练模型

2020年之前:双塔模型,视觉和语言模态交互在初始表达之后(ViLBERT、LXMBert)
跨模态Transformer交互
请添加图片描述
2020年,单塔模型。混合视觉和文本。
请添加图片描述
预训练任务:
MLM:掩码语言
MOC:学习遮盖
请添加图片描述
请添加图片描述
2020下半年-2021.12月:
跨视觉语言模态模型
请添加图片描述
场景图:捕捉核心语义
请添加图片描述
之前预训练语言模型:视觉端采用FasterRCNN,使用局部Box作为Transformer输入。

Pixel-Bert:视觉端采用CNN提取特征
请添加图片描述
视觉处理高效——Patch完成视觉端处理
请添加图片描述
OSCAR:桥接语义空间。跨视觉语义模态
请添加图片描述
图像特征提取+语义桥接
请添加图片描述
请添加图片描述
物体发现+描述生成
请添加图片描述
UNIMO:某个模态信息缺失,是否还能进行学习?支持单模态、跨模态的预训练
请添加图片描述
训练过程:单词级别——短语级别——句子级别。不同粒度的语义信息,对下游任务的影响。
请添加图片描述

Cross -Modality Tasks of Various Semantic Levels 不同语义层次的跨模态任务

请添加图片描述
图片与文本匹配:多粒度样本学习
“子图与短语相似度匹配”
请添加图片描述
句子:双向LSTM编码
请添加图片描述
文本端构建——树结构
请添加图片描述

动态深度神经网络——黄高

1. Overview of CNN architecture design

请添加图片描述
不同网络结构:拟合不同的网络结构。
网络压缩、减枝
请添加图片描述请添加图片描述

2. Dynamic neural networks 动态神经网络

神经网络推理

A. Sample-wise Dynamic Networks

B. Spatial-wise Dynamic Networks

C. Temporal-wise Dynamic Networks

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值