以下内容全是学习自一位学长的读书笔记!!!!
按照之前的进度,再介绍一些研究方向
视频/图像描述
相当于就是把一段图片翻译成一段文字,他的难点就是在于对模块的理解和推理,主要是那些图片和自然语言。还包括对这些图片中的运动的理解。
他有各式各样的模型与方法:
1.encoder-Decoder
2.m-RNN
3.NIC
等等一系列模型方法
当然还要对应的数据集:
视觉常识推理
这个任务就是对于给定的一张图片,给出一些选项和一个问题,然后模型需要选择出其中一个选项,并且给出合理的解释(也就是推理这个词,就是解释动作,分析动作)
在这个地方,学长就说了一篇论文,这篇论文的题目就是从认知层面去提升视觉问题。这篇文章的贡献包括:1.提出了视觉常识推理的任务 2.展示了一个问答数据集(从电影的场景里截图)3.说了利用和生成这个数据集的算法 4.提出一个新模型来测试这个任务(这些都太复杂,我目前还都学不到。。)