文本图像识别学习入门

最新推荐文章于 2023-01-03 22:29:01 发布

关切得大神

最新推荐文章于 2023-01-03 22:29:01 发布

阅读量748

点赞数 1

分类专栏：深度学习数字图像处理

本文链接：https://blog.csdn.net/qq_41115379/article/details/108664640

版权

深度学习同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

数字图像处理

8 篇文章 0 订阅

订阅专栏

以下内容全是学习自一位学长的读书笔记！！！！
首先知道一个概念叫模态，他是指事物发生或者存在的方式，而我需要了解的是，文本和图像这两种模态，并理解文本图像对齐任务，也就是结合了计算机视觉和自然语言处理的任务

1.现在基本上是有五个研究方向：

表征
转化
对齐
融合
协同学习

表征

有两种研究方向：
1.联合表征：将多个模态的信息一起映射到一个统一的多模态向量空间
2.协同表征：将多模态的每个魔台分别映射到格子的便是空间，但是映射之后的向量有一定的相关性约束。

转化

将一个模态的信息转化为另一个模态的信息
1.机器翻译：将A语言翻译成B语言，类似的还有唇读和语音翻译
2.图片描述和视频描述：对给定的图片和视频进行一段文字描述，来解释其内容

对齐

有一些任务：
1.给图片和对图片的描述，在找到图中的某个区域和这个区域在描述中对应的表述（相当于看字识图）
2.给一个美食制作视频和对应的菜谱，实现菜谱中的步骤描述和视频分段的对应（看字识别动态图的感觉）
3.对电影的画面-语音-字幕的自动对齐（这个很酷的感觉）

当然就有对应的研究方向：
1.显示对齐的技术：无监督方法和弱监督方法
2.隐式对齐的技术：图模型和神经网络

融合

融合和之前提到的表征，是有点难区分的
对应的任务：
1.视觉-音频识别：综合一个实例的视频和音频，进行识别（不太清楚这个概念）
2.手机身份认证：利用手机的多传感器信息，认证手机使用者是否注册用户（这也不太清楚哎）

协同学习

也就是互相帮助学习，让资源丰富的模态知识来辅助资源稀缺的模态建立模型。

2.跨模态任务介绍

2.1 image-pivoted zero-resource translation
直接翻译过来就是，基于图片的零样本翻译，也就是用图片的信息来进行翻译，但是困难在于图片的信息进行翻译是比较困难的，因为翻译的大部分是只会对有视觉意义的词语进行较好的翻译，所以会导致翻译的质量不高，其次这种翻译针对的是单一目标词语的图片，但现实都是有很多物体的复杂图片。

2.2language-pivoted zero-resource caption
翻译过来就是：图片描述生成任务的，也就是对给定的图片，进行自动生成描述图片内容的自然语言描述。通常是使用机器翻译和已有的图片描述数据集来训练。

2.3multimodal enhanced translation
也就是多模态增强翻译，也就是在翻译的前提下，再引入跨膜态的信息（一般是视频），来提高机器翻译模型的质量（这个感觉好复杂。。）

研究方向总结下来就是：

1.跨模态检索
2.视觉问答
3.图像、视频描述
4.自然语言
5.视觉常识推理
6.视觉蕴涵
7.视觉与语言导航
8.视觉推理

关切得大神

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本图像识别学习入门

以下内容全是学习自一位学长的读书笔记！！！！首先知道一个概念叫模态，他是指事物发生或者存在的方式，而我需要了解的是，文本和图像这两种模态，并理解文本图像对齐任务，也就是结合了计算机视觉和自然语言处理的任务1.现在基本上是有五个研究方向：表征转化对齐融合协同学习表征有两种研究方向：1.联合表征：将多个模态的信息一起映射到一个统一的多模态向量空间2.协同表征：将多模态的每个魔台分别映射到格子的便是空间，但是映射之后的向量有一定的相关性约束。转化将一个模态的信息转化为另一个模态的
复制链接

扫一扫

专栏目录