[论文笔记]Predicting Deeper into the Future of Semantic Segmentation

最新推荐文章于 2020-12-18 15:34:12 发布

明天去哪

最新推荐文章于 2020-12-18 15:34:12 发布

阅读量1.1k

点赞数

分类专栏： Semantic Segmentation 图像语义分割论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014451076/article/details/78363833

版权

图像语义分割论文同时被 2 个专栏收录

35 篇文章 29 订阅

订阅专栏

Semantic Segmentation

25 篇文章 1 订阅

订阅专栏

引介

ICCV2017的文章，arXiv:1703.07684 [cs.CV]，本文有LeCun的署名.

Abstract

预测接下来视频帧的单纯的RGB像素值已经被研究了很久，本文提出了一种新奇的任务——预测接下来的视频帧的语义分割.
同时，本文提出了一种自动回归CNN(AR-CNN)来进行迭代生成多帧.

Model

数据

采用Cityscapes数据集，分辨率转化为128x256.
采用的度量标准是PSNR(Peak Signal to Noise Ration)、SSIM(Structural Similarity Index Measure)、MIoU等.
由于视频的标注数据很少，并且不容易获取，因此本文采用比较先进的方法(Dilated10)在Cityscapes的视频上进行数据的标注，作为label.

单帧预测

baseline:
（1）拷贝最后一帧（2）使用optical flow包裹最后一帧

建立了多种网络进行比较:
X2X(现实预测现实)
S2S(分割预测分割)
XS2X、XS2S、XS2XS
采用一种Multi-scale架构进行训练

注意点:
(1)使用softmax的pre-activations，认为这种方式包含了更多的信息
(2)loss function使用了一种变种:

（3）另外也尝试了使用gan和VAE进行训练

预测未来更长时间

使用自动回归CNN，S1:t预测St，S2:t+1预测St，逐步预测更深。
分别尝试了0.18s、5s、10s的预测，具体方式在现实的图像中采样4帧，输出未来的几帧，说起来比较复杂，其实做法很简单，具体参考论文吧.

Summary

对我来说，本文最终要的几点是：(1)考虑到直接预测未来场景很困难，但是先从分割到分割比较容易（2）考虑到视频标注数据集比较少，采用先进的方法进行生成（3）提出了一种自动回归的方法，但是没有太多的细节

Thinking

直接预测未来的RGB现实图片可能比较难，根据本文的启发，能不能从现实的RGB->现实的分割->未来的分割->未来的RGB.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[论文笔记]Predicting Deeper into the Future of Semantic Segmentation

引介ICCV2017的文章，arXiv:1703.07684 [cs.CV]，本文有LeCun的署名.Abstract预测接下来视频帧的单纯的RGB像素值已经被研究了很久，本文提出了一种新奇的任务——预测接下来的视频帧的语义分割. 同时，本文提出了一种自动回归CNN(AR-CNN)来进行迭代生成多帧.Model数据采用Cityscapes数据集，分辨率转化为1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。