文本图像识别学习入门

以下内容全是学习自一位学长的读书笔记!!!!
首先知道一个概念叫模态,他是指事物发生或者存在的方式,而我需要了解的是,文本图像这两种模态,并理解文本图像对齐任务,也就是结合了计算机视觉自然语言处理的任务

1.现在基本上是有五个研究方向:

  1. 表征
  2. 转化
  3. 对齐
  4. 融合
  5. 协同学习

表征

有两种研究方向:
1.联合表征:将多个模态的信息一起映射到一个统一的多模态向量空间
2.协同表征:将多模态的每个魔台分别映射到格子的便是空间,但是映射之后的向量有一定的相关性约束。

转化

将一个模态的信息转化为另一个模态的信息
1.机器翻译:将A语言翻译成B语言,类似的还有唇读和语音翻译
2.图片描述和视频描述:对给定的图片和视频进行一段文字描述,来解释其内容

对齐

有一些任务:
1.给图片和对图片的描述,在找到图中的某个区域和这个区域在描述中对应的表述(相当于看字识图)
2.给一个美食制作视频和对应的菜谱,实现菜谱中的步骤描述和视频分段的对应(看字识别动态图的感觉)
3.对电影的画面-语音-字幕的自动对齐(这个很酷的感觉)

当然就有对应的研究方向:
1.显示对齐的技术:无监督方法和弱监督方法
2.隐式对齐的技术:图模型和神经网络

融合

融合和之前提到的表征,是有点难区分的
对应的任务:
1.视觉-音频识别:综合一个实例的视频和音频,进行识别(不太清楚这个概念)
2.手机身份认证:利用手机的多传感器信息,认证手机使用者是否注册用户(这也不太清楚哎)

协同学习

也就是互相帮助学习,让资源丰富的模态知识来辅助资源稀缺的模态建立模型。

2.跨模态任务介绍

2.1 image-pivoted zero-resource translation
直接翻译过来就是,基于图片的零样本翻译,也就是用图片的信息来进行翻译,但是困难在于图片的信息进行翻译是比较困难的,因为翻译的大部分是只会对有视觉意义的词语进行较好的翻译,所以会导致翻译的质量不高,其次这种翻译针对的是单一目标词语的图片,但现实都是有很多物体的复杂图片。

2.2language-pivoted zero-resource caption
翻译过来就是:图片描述生成任务的,也就是对给定的图片,进行自动生成描述图片内容的自然语言描述。通常是使用机器翻译和已有的图片描述数据集来训练。

2.3multimodal enhanced translation
也就是多模态增强翻译,也就是在翻译的前提下,再引入跨膜态的信息(一般是视频),来提高机器翻译模型的质量(这个感觉好复杂。。)

研究方向总结下来就是:

1.跨模态检索
2.视觉问答
3.图像、视频描述
4.自然语言
5.视觉常识推理
6.视觉蕴涵
7.视觉与语言导航
8.视觉推理

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值