CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期（CIPS ATT25）

最新推荐文章于 2023-09-13 18:58:26 发布

Laura_Wangzx

最新推荐文章于 2023-09-13 18:58:26 发布

阅读量681

点赞数

分类专栏：读文章笔记与会议学习笔记文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_37486501/article/details/121691143

版权

读文章笔记与会议学习笔记专栏收录该内容

25 篇文章 8 订阅

订阅专栏

CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期（CIPS ATT25）](CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期（CIPS ATT25

跨视觉语言模态的联合语义建模和推理——魏忠钰
跨模态表征
Cross -Modality Tasks of Various Semantic Levels 不同语义层次的跨模态任务
动态深度神经网络——黄高

跨视觉语言模态的联合语义建模和推理——魏忠钰

1. 匹配

2. Vision-based Text Generation Evalution

主流：深度神经网络的Encoder-Decoder框架

Visual Genome：短的信息、物体关系的标注
请添加图片描述

3. VQA

请添加图片描述

Visual Commonsense Reasoning (VCR)基于常识的视觉推理

请添加图片描述

跨模态表征

请添加图片描述

Contrastive cross-modality representation learning对比跨模态表征学习

文本：Transformer可以考虑到任何词之间的关系
视觉：Transformer（Swin Transformer）
请添加图片描述
跨模态视觉和语义的隐藏空间。
图片往语义空间映射：文本不动，视觉向文本的对齐

找负样本
极难负样本

负样本采样（学决策平面）：batch——数据集里找负样本

三元组（图片，正样本，负样本）
请添加图片描述
预训练模型中使用Loss

Cross-modality representation learning via Structure Semantics 基于结构语义的跨模态表示学习

Faster-RCNN进行目标检测（RoI）
请添加图片描述
Scene Graph：Faster RCNN发现物体，查找两个物体之间的关系。

图像描述：是不是覆盖了核心语义
SPICE：从句子构造场景图的工具。

场景图：捕捉信息工具。使用特征，辅助任务。
场景图足够描绘图像语义？文本有一些是抽象语义。高层语义需要对场景图进行扩展。
请添加图片描述
抽象场景概念

场景图辅助
场景图作为多粒度语义标签
构建分层语义树

Cross-modality pre-training Models 跨模态预训练模型

2020年之前：双塔模型，视觉和语言模态交互在初始表达之后（ViLBERT、LXMBert）
跨模态Transformer交互
请添加图片描述
2020年，单塔模型。混合视觉和文本。

预训练任务：
MLM：掩码语言
MOC：学习遮盖

2020下半年-2021.12月：
跨视觉语言模态模型

场景图：捕捉核心语义

之前预训练语言模型：视觉端采用FasterRCNN，使用局部Box作为Transformer输入。

Pixel-Bert：视觉端采用CNN提取特征
请添加图片描述
视觉处理高效——Patch完成视觉端处理

OSCAR：桥接语义空间。跨视觉语义模态

图像特征提取+语义桥接

物体发现+描述生成

UNIMO：某个模态信息缺失，是否还能进行学习？支持单模态、跨模态的预训练
请添加图片描述
训练过程：单词级别——短语级别——句子级别。不同粒度的语义信息，对下游任务的影响。

Cross -Modality Tasks of Various Semantic Levels 不同语义层次的跨模态任务

请添加图片描述
图片与文本匹配：多粒度样本学习
“子图与短语相似度匹配”

句子：双向LSTM编码

文本端构建——树结构

动态深度神经网络——黄高

1. Overview of CNN architecture design

请添加图片描述
不同网络结构：拟合不同的网络结构。
网络压缩、减枝

2. Dynamic neural networks 动态神经网络

神经网络推理

A. Sample-wise Dynamic Networks

B. Spatial-wise Dynamic Networks

C. Temporal-wise Dynamic Networks

Laura_Wangzx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期（CIPS ATT25）

CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期（CIPS ATT25）](CCL 2021 讲习班暨中国中文信息学会《前沿技术讲习班》第25期（CIPS ATT25跨视觉语言模态的联合语义建模和推理——魏忠钰1. 匹配2. Vision-based Text Generation Evalution3. VQAVisual Commonsense Reasoning (VCR)基于常识的视觉推理跨模态表征Contrastive cross-modality representation
复制链接

扫一扫