2022.3.8

最新推荐文章于 2024-09-22 20:34:48 发布

lmx001206

最新推荐文章于 2024-09-22 20:34:48 发布

阅读量1.2k

点赞数

文章标签：深度学习计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lmx001206/article/details/123358137

版权

阅读的文献Improved EDVR Model for Robust and Efficient Video Super-Resolution

EDVR基础上改进的，设计了这两个模块preprocessing module consisting of rigid convolution sub-modules and feature enhancement sub-modules

还设计了时域三维卷积融合模块（三维卷积不是二维卷积，课本（最常见的））

第三：channel attention approach（新的通道注意机制

Video enhancement with task-oriented flow）

时域三维卷积，效果好，而且三维卷积数目越多，结果越好。思想是将连续的帧视为一个多通道的特征图，通过时间序列对帧进行重组，形成特征图的深度，从而提取出时空冗余

它这些创新点。都是借鉴的，比如这个论文某个模块的创新点咋加到另一个网络模块中？

没代码这论文。。。；

backbone：骨干网络，比如alexnet，ZFnet，VGG，googlenet...

benchmark：性能指标，比如accuracy，内存消耗，模型复杂度，或者在性能上很有代表性的算法框架。

baseline：

而basicvsr可以作为一个baseline

baseline一词应该指的是对照组，基准线，就是你这个实验有提升，那么你的提升是对比于什么的提升，被对比的就是baseline。

比如你要研究一个新的模型，你是在前人的模型基础上新增加了一些组件，别人也基本都是在这个模型上进行修改，那这个模型就叫做baseline model——基准模型。听名字就能听出来，就是你自己模型的一个基准，一个基本的框架，模型再复杂，最根本的框架是差不多的。

basic和iconvsr

这个project，

work_dirs即保存的就是工作日志，即实验记录。

tools里面有很多工具，train test等

这个tests里面的东西没搞太明白干嘛用的e

mmedit里面的apis装的是啥也没core也是

但是这个mmedit里面有basicvsr——net就是网络模型

EDVR：

一个模块：PCD：级联金字塔可变对齐模块。

:TSA融合模块，（时空注意机制应用于时域和空域）

挑战和改进在于：对齐、融合这两个点。

PCD：不同于以往的光流模块，它是能够每个帧的特征is applied

这两个模块看都看不懂e。。。。。。。

可变形卷积网络：

就是之前的卷积核是个固定的几乘几，而现在可变形的就是

可以任意形状。

transformer就像那种最基本的baseline，比如cnn卷积网络一样。它是一套基本网络，现在好多是把cnn的改成transformer。但是如果这两者能结合在一起肯定就更好。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

lmx001206 CSDN认证博客专家 CSDN认证企业博客

码龄5年

39: 原创

42万+: 周排名

117万+: 总排名

3万+: 访问

: 等级

423: 积分

8: 粉丝

9: 获赞

11: 评论

49: 收藏

私信

关注

热门文章

最新评论

parse_args的使用:
用户628777: 所以怎么办呢，RuntimeError: stack expects a non-empty TensorList我也是遇到了这个问题。
提升cv的工程即代码能力
努力成为算法工程师: 有没有好一点的baseline 代码？推荐一下谢谢，我是做视频超分辨率的。其他视觉方向的代码也行，谢谢
深度学习数据加载过程：
Krovsiki: 老师可以描述一下arbsr那个训练集要怎么处理吗？就是DIY2k那个
Meta-sr 复现的环境配置问题：
飞羽、屋: 请问传参部分报错怎么修改
cvday16（做到这个程度就好）
lmx001206: 重新更正下，怎么讲。训练一个超分网络，他们用的训练数据集都是分辨率比较低的那种数据集就不会那么大。即640x256下采样到160x64这样再一起输入，对比获取lr-hr的特征关系。所以其实同样的这里分辨率就是提高了4倍，即我们输入1k变4k但是这时候要看你的cuda能不能承受得住，即cpu内存够不够你一次性输入很多图片，像我做的这个640-2k就是每次输入50张照片来还原，但是合成的视频总是抖动很大。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。