文字图像处理之视频/图像描述和视觉常识推理

最新推荐文章于 2024-01-28 14:35:00 发布

关切得大神

最新推荐文章于 2024-01-28 14:35:00 发布

阅读量648

点赞数

分类专栏：深度学习数字图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41115379/article/details/108671875

版权

深度学习同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

数字图像处理

8 篇文章 0 订阅

订阅专栏

以下内容全是学习自一位学长的读书笔记！！！！
按照之前的进度，再介绍一些研究方向

视频/图像描述

相当于就是把一段图片翻译成一段文字，他的难点就是在于对模块的理解和推理，主要是那些图片和自然语言。还包括对这些图片中的运动的理解。
他有各式各样的模型与方法：
1.encoder-Decoder
2.m-RNN
3.NIC
等等一系列模型方法
当然还要对应的数据集：
在这里插入图片描述

视觉常识推理

这个任务就是对于给定的一张图片，给出一些选项和一个问题，然后模型需要选择出其中一个选项，并且给出合理的解释（也就是推理这个词，就是解释动作，分析动作）

在这个地方，学长就说了一篇论文，这篇论文的题目就是从认知层面去提升视觉问题。这篇文章的贡献包括：1.提出了视觉常识推理的任务 2.展示了一个问答数据集（从电影的场景里截图）3.说了利用和生成这个数据集的算法 4.提出一个新模型来测试这个任务（这些都太复杂，我目前还都学不到。。）

关切得大神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。