CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期(CIPS ATT25)](CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期(CIPS ATT25
跨视觉语言模态的联合语义建模和推理——魏忠钰
1. 匹配
2. Vision-based Text Generation Evalution
主流:深度神经网络的Encoder-Decoder框架
Visual Genome:短的信息、物体关系的标注
3. VQA
Visual Commonsense Reasoning (VCR)基于常识的视觉推理
跨模态表征
Contrastive cross-modality representation learning对比跨模态表征学习
文本:Transformer可以考虑到任何词之间的关系
视觉:Transformer(Swin Transformer)
跨模态视觉和语义的隐藏空间。
图片往语义空间映射:文本不动,视觉向文本的对齐
找负样本
极难负样本
负样本采样(学决策平面):batch——数据集里找负样本
三元组(图片,正样本,负样本)
预训练模型中使用Loss
Cross-modality representation learning via Structure Semantics 基于结构语义的跨模态表示学习
Faster-RCNN进行目标检测(RoI)
Scene Graph:Faster RCNN发现物体,查找两个物体之间的关系。
图像描述:是不是覆盖了核心语义
SPICE:从句子构造场景图的工具。
场景图:捕捉信息工具。使用特征,辅助任务。
场景图足够描绘图像语义?文本有一些是抽象语义。高层语义需要对场景图进行扩展。
抽象场景概念
- 场景图辅助
- 场景图作为多粒度语义标签
构建分层语义树
Cross-modality pre-training Models 跨模态预训练模型
2020年之前:双塔模型,视觉和语言模态交互在初始表达之后(ViLBERT、LXMBert)
跨模态Transformer交互
2020年,单塔模型。混合视觉和文本。
预训练任务:
MLM:掩码语言
MOC:学习遮盖
2020下半年-2021.12月:
跨视觉语言模态模型
场景图:捕捉核心语义
之前预训练语言模型:视觉端采用FasterRCNN,使用局部Box作为Transformer输入。
Pixel-Bert:视觉端采用CNN提取特征
视觉处理高效——Patch完成视觉端处理
OSCAR:桥接语义空间。跨视觉语义模态
图像特征提取+语义桥接
物体发现+描述生成
UNIMO:某个模态信息缺失,是否还能进行学习?支持单模态、跨模态的预训练
训练过程:单词级别——短语级别——句子级别。不同粒度的语义信息,对下游任务的影响。
Cross -Modality Tasks of Various Semantic Levels 不同语义层次的跨模态任务
图片与文本匹配:多粒度样本学习
“子图与短语相似度匹配”
句子:双向LSTM编码
文本端构建——树结构
动态深度神经网络——黄高
1. Overview of CNN architecture design
不同网络结构:拟合不同的网络结构。
网络压缩、减枝
2. Dynamic neural networks 动态神经网络
神经网络推理