视频图像处理

最新推荐文章于 2024-08-05 12:23:37 发布

看不见我呀

最新推荐文章于 2024-08-05 12:23:37 发布

阅读量4.4k

点赞数

分类专栏：扩展阅读

扩展阅读专栏收录该内容

14 篇文章 1 订阅

订阅专栏

https://blog.csdn.net/jyzhang_cvml/article/details/79687248

为什么要采用这样的网络？

众所周知的CNN网络对于图像的空间域的处理具有很好的效果，在单张图像的分类分割目标检测等问题上表现出了很好的效果。很多人或许有和我之前一样的疑问，既然单张图像上做的效果已经达到state-of-art的效果，为什么还要联系时间域上的信息呢？直接将视频序列拆分成单帧图像进行处理不就可以了麽？

其实理解时间域的优势并不在于如何提高算法的效果，而是在于充分利用已有视频的信息，在有限的视频训练数据集上达到更好的效果。

简单来说，我们当前的任务是对于某一段视频序列中出现的行人进行分割。如果采用单帧图像进行分割操作，需要绞尽脑汁充分开发CNN各方面的性能，以保证仅仅通过行人的 appearance 的角度就可以达到准确的分割。往往这样的单帧图像的训练方法需要（假设）2000张具有人为标注的训练集图像。然而如果在考虑单张图像 appearance 的角度进一步融合行人的 motion 信息，如运动的规律性一致性等等，可能仅仅需要 1000 张具有人为标注的训练集图像。

所以并不是说单帧图像仅仅考虑 appearance 信息不能完成视频序列的分割，我们采用 sptio-temporal 的构架方法能够在 limited 的有标记的数据集上，充分开发CNN的性能，达到 state-of-art 的分割效果。

看不见我呀

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。