文字图像处理之视频/图像描述和视觉常识推理

以下内容全是学习自一位学长的读书笔记!!!!
按照之前的进度,再介绍一些研究方向

视频/图像描述

相当于就是把一段图片翻译成一段文字,他的难点就是在于对模块的理解和推理,主要是那些图片和自然语言。还包括对这些图片中的运动的理解。
他有各式各样的模型与方法
1.encoder-Decoder
2.m-RNN
3.NIC
等等一系列模型方法
当然还要对应的数据集
在这里插入图片描述

视觉常识推理

这个任务就是对于给定的一张图片,给出一些选项和一个问题,然后模型需要选择出其中一个选项,并且给出合理的解释(也就是推理这个词,就是解释动作,分析动作)

在这个地方,学长就说了一篇论文,这篇论文的题目就是从认知层面去提升视觉问题。这篇文章的贡献包括:1.提出了视觉常识推理的任务 2.展示了一个问答数据集(从电影的场景里截图)3.说了利用和生成这个数据集的算法 4.提出一个新模型来测试这个任务(这些都太复杂,我目前还都学不到。。)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值