![](https://img-blog.csdnimg.cn/12e2243f7fdc47d190c2f978dd7836c4.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
【论文研读-图像处理】
文章平均质量分 86
【论文研读-图像处理】
MengYa_DreamZ
努力经营当下,直至未来明朗!(欢迎交流xy:半块巧克力哇,回复较快)
展开
-
ViT:AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE【重温开篇之作,温故而知新】
ViT:重温开篇之作,温故而知新AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(高度局部化注意力在混合模型中并不明显,混合模型缓和了注意力的分布不均?!)。what degree the network makes use of self-attention capability ?这里就能对Timm库所提供的预训练模型有所理解。原创 2022-09-22 09:46:45 · 801 阅读 · 0 评论 -
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification
Motivation扩展:多尺度特征扩展:受到多分支CNN架构的启发:OctConv-篇幅较长另起多尺度Vision Transformer多尺度特征融合All-Attention FusionClass Token FusionPairwise FusionCross-Attention Fusion原创 2022-09-15 12:05:46 · 3376 阅读 · 0 评论 -
OctConv :Drop an Octave: Reducing Spatial Redundancy inConvolutional Neural Networks with......
一文简概 核心OctConv :Drop an Octave: Reducing Spatial Redundancy inConvolutional Neural Networks with及计算思路原创 2022-09-15 11:36:43 · 457 阅读 · 0 评论 -
论文的撰写思路
论文整体思路:问题务求挑战,模型务求创新,实现务求准确,实验务求深入。论文的典型结构:摘要、介绍、相关工作、方法、实验和结论。每个部分都要各司其职,向学术界同行清晰准确地描述成果的创新点、技术思路、算法细节和验证结果。摘要可以看做对介绍的简介,最简单的做法是,从介绍各部分精简1-2句话组成摘要。介绍是对整个工作的全面介绍,是决定一篇论文能否被录用的关键。一般情况下:起手介绍研究任务和意义;随后简介面向这个任务的已有方法; 接着说明已有方法面临的关键挑战; 针对这些挑战,本文提出什..原创 2021-09-11 09:44:38 · 985 阅读 · 0 评论 -
Tips for Writing a Good Report-一份好的报告的关键点
目录Title:标题Introduction:介绍Methods:方法Results:结果Discussion:讨论References:参考Final Comment:最后的评价Title:标题清晰的、描述性的,但不要太长。理想情况下,应该说明主要结果。Introduction:介绍大约3-5段,介绍:介绍了这个问题并描述了为什么它很有趣; 总结了关于这个问题的知识,引用了之前的工作; 总结本文的方法。问问自己: 为什么这个问题很重要? 为什么是原创 2022-03-30 17:05:25 · 398 阅读 · 0 评论 -
TCMonodepth:Enforcing Temporal Consistency in Video Depth Estimation-论文阅读
TCMonodepth:Enforcing Temporal Consistency in Video Depth Estimation论文阅读原创 2022-08-11 23:41:34 · 443 阅读 · 4 评论 -
CREStereo: Practical Stereo Matching via Cascaded Recurrent Networkwith Adaptive Correlation-论文阅读
CREStereo: Practical Stereo Matching via Cascaded Recurrent Networkwith Adaptive Correlation-论文阅读原创 2022-07-06 15:37:56 · 2882 阅读 · 7 评论 -
TNT-Transformer in Transformer
Paper: Transformer in Transformer TNTCodeTransformer in Transformer论文解读Visual Transformer通常将图像视为一系列patch,而忽略每个patch内部的固有结构信息。Transformer-iN-Transformer(TNT)模型:用于对patch级和pixel级的表征进行建模。在每个TNT Block中,outer transformer block用于处理patch embedding,而inner..原创 2022-05-05 16:58:05 · 843 阅读 · 0 评论 -
【SeMask】Semantically Masked Transformers for Semantic Segmentation
SeMask:Semantically Masked Transformers for Semantic Segmentation【Paper】【Github】问题:encoding阶段(基于Transformer主干),语义信息是有所丢失的。 Use an existing pretrained backbone as an encoder and transfer it to downstream tasks using pre-existing standard decoders s原创 2022-04-21 12:51:57 · 1195 阅读 · 0 评论 -
【MetaFormer】MetaFormer is Actually What You Need for Vision_MetaFormer 用于计算机视觉任务的派生模型
ViT编码器有两个主要组件:第一个是基于注意力的组件,处理混合输入标记的信息;第二个组件包含MLP,具有典型扩展-压缩结构。历史上注意力模块一直被认为是Transformer能力的核心。出于这个原因大多数研究人员都专注于如何改进注意力模块。尽管如此最近的工作已经证明了 MLP 的能力以及实现可对比结果的能力。这方面引起了人们的怀疑,即Self-attention 模块并不是所需要的全部。原创 2022-04-07 16:11:21 · 6173 阅读 · 2 评论 -
DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计
DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计原创 2022-04-05 17:20:53 · 4735 阅读 · 5 评论 -
Instant Neural Graphics Primitives with a Multiresolution HashEncoding_具有多分辨率的哈希编码
痛点:完全连接的神经网络的参数训练和评估的成本都很高。目的:降低成本——在不牺牲质量的情况下,减少浮点和内存访问操作的数量,搭建小型神经网络。通过使用完全融合的CUDA内核来实现整个系统,并专注于最小化浪费的带宽和计算操作。过程:利用可训练特征向量的多分辨的哈希表,其值通过随机梯度下降进行优化。要素:多分辨率结构允许网络消除哈希冲突的歧义。原创 2022-03-28 16:59:01 · 4822 阅读 · 0 评论 -
ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION
Adam: a method for stochastic optimization_一种随机优化的方法[Paper]原创 2022-03-22 16:58:36 · 4628 阅读 · 1 评论 -
Robust Consistent Video Depth Estimation_具有鲁棒一致性的视频深度估计
核心:利用卷积神经网络训练单张图像深度估计优化深度图的对齐连续优化共同优化相机位姿参数的内外参估计的深度图3D对齐解决Naive alignment:提出一种更灵活变形的模型,利用空间不同样条函数。准确、低频、大规模对齐解决高频细节和解除晃动残差:提出一种具有几何感知的深度过滤器高频、对齐、好的深度细节(在前一阶段精确对齐,从而不会模糊细节)原创 2022-03-20 20:37:41 · 3056 阅读 · 0 评论 -
Quadtree attention for vision transformers_四叉树注意力
Quadtrees的概念, quadtrees通常用于递归地将二维空间细分为4个象限或区域。文章主要对attention进行处理,提出了QuadTree Attention,实现了将二次复杂度降低到线性复杂度。具体而言:利用QuadTree Attention建立了一个token金字塔,并以一种从粗到细的方式计算注意力。在每一个level中,选择注意力最关注的patchs,在下一个level,就只计算和这些patchs对应的相关区域的注意力进行评估。原创 2022-03-17 16:43:33 · 3845 阅读 · 2 评论 -
How many layers and why? An analysis of the model depth in transformers-----transformer问什么叠很多层?
How many layers and why? An analysis of the model depth in transformers-----transformer问什么叠很多层?那么经过一层transformer就有这个效果了?将从前者transformer输出的结果,再一次作为输入,再次经过transformer,是为了得到注意里效果更高的数据?加强attention map?原创 2022-03-15 21:50:12 · 1282 阅读 · 0 评论 -
Consistent Video Depth Estimation——视频深度一致估计
Consistent Video Depth Estimation——视频深度一致估计原创 2022-03-11 20:53:37 · 5968 阅读 · 0 评论 -
训练DPT:由测试test到训练train图像的一个epochs的optimize.zero_grad() loss.backward() optimizer.step()
训练DPT如何从test进一步得到train呢?一个epochs的optimize.zero_grad() loss.backward() optimizer.step()原创 2022-03-09 10:25:10 · 2078 阅读 · 0 评论 -
DeepViT:Towards Deeper Vision Transform
DeepViT: Towards Deeper Vision Transformerattention collapse Re-attention原创 2022-02-25 11:19:55 · 1422 阅读 · 0 评论 -
NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View Synthesis
论文地址:NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View Synthesis (arxiv.org)选择:就目前而言,其在多项评估中排名居前。灵感、动机,痛点:作者依据前人的工作发现:①利用NVS(novel view sythesis)证实了精确的集合先验能够很好的提高合成质量;②即使没有深度监督,也可以获得粗略但合理的深度估计,并且深度估计网络可以从端到端视图合成管道获得监督信号;③视点约束可以引导.原创 2022-01-25 23:56:01 · 439 阅读 · 0 评论 -
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
相应视频学习转载 2021-11-22 16:33:44 · 390 阅读 · 0 评论 -
Self-Supervised Vision Transformers with DINO-代码研读
Code,仅作学习交流1 main_dino.pyimport 机制可以导入我们需要使用的库,避免代码重复pytorch框架下常用的torchvisiongongjukfrom torchvision import transformsimport argparseimport osimport sysimport datetimeimport timeimport mathimport jsonfrom pathlib import Pathimport .原创 2021-11-22 16:31:29 · 3122 阅读 · 2 评论 -
Swin Transformer : Hierarchical Vision Transformer using Shifted Windows
论文地址本文主要研究学习一种新的Transformer架构——Swin Transformer,其目的:新建一个通用架构Transfoemer从NLP应用到CV领域存在以下几个挑战:痛点:CV中视觉块的变化尺度大;图像像素的高分辨率;——动机scale:视觉元素在规模上可能有很大的差异; High Resolution:像素级,更高分辨率,自注意力的计算复杂度是二次的。本文:提出一个Hierarchical(分层)Transformer ,通过shifted windows(Swin.原创 2021-11-22 16:16:44 · 2383 阅读 · 0 评论 -
Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction 基于Transformer注意力网络连续像素级与估计
Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction 基于Transformer注意力网络的连续的像素级的原创 2021-11-10 14:53:11 · 4101 阅读 · 3 评论 -
UFO- ViT : High Performance Linear Vision Transformer without Softmax-没有Softmax的高性能线ViT
论文地址:lUFO- ViT : High Performance Linear Vision Transfrmer without Softmax1.摘要UFO-ViT(Unit Force Operated Vision Trnasformer)本文动机:the complexity quadratic to N is one of the major drawbacks when using traditional self-attention algorithms..原创 2021-10-28 10:59:11 · 1219 阅读 · 0 评论 -
(DINO) Emerging Properties in Self-Supervised Vision Transformers——自监督ViT的新属性和几点思考
(DINO) Emerging Properties in Self-Supervised Vision Transformers——自监督ViT的新属性Self-distillation with no labels 、student-teacher network 概念、知识蒸馏原创 2021-10-17 19:03:57 · 3353 阅读 · 2 评论 -
AdaBins: Depth Estimation using Adaptive Bins
细品:AdaBins: Depth Estimation using Adaptive Binsestimating a high quality dense depth map from a single RGB input image.CNN + transformer主要讲解AdaBins板块 整理相关损失函数和误差分析单张RGB图像 → 估计高质量稠密深度图原创 2021-09-16 11:32:42 · 3064 阅读 · 25 评论 -
How Do Neural Networks See Depth in Single Images?神经网络如何看到单张图像的深度?
How Do Neural Networks See Depth in Single Images?神经网络如何看到单张图像的深度?神经网络为了障碍物在图像中的垂直位置忽略其表征大小;网络只能部分识别相机俯仰和横摇角度的变化;这些变化会干扰对障碍物的估计距离。垂直距离需要相机的位姿,图像中的垂直位置,进而估计任意障碍物的深度。网络中使用了哪些深度线索?垂直位置、相机位姿、相机的俯仰和横摇角度深度估计相关属性原创 2021-09-11 09:18:46 · 476 阅读 · 1 评论 -
Learning to Recover 3D Scene Shape from a Single Image
超详细研读Learning to Recover 3D Scene Shape from a Single Image从单张图像恢复三维场景形状:点云网络 DPM和PCM;未知的深度位移;可能未知的相机焦距;图像级归一化回归损失;基于法线的几何损失;原创 2021-09-01 11:23:39 · 2222 阅读 · 5 评论 -
Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution
Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution代码实践原创 2021-08-21 18:05:05 · 488 阅读 · 1 评论 -
Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution
超详细论文研读Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging《通过内容自适应多分辨率合并,提高单眼深度估计模型到高分辨率效果》作者提出了一种方法:利用单一图像产生高度详细的高分辨率深度估计!!该方法是基于优化一个预训练网络的性能,通过合并不同分辨率和不同补丁的估计来生成一个高分辨率的估计。原创 2021-08-21 16:32:21 · 1436 阅读 · 5 评论 -
Revisiting Stereo Depth Estimation From a Sequence-to Sequence Perspective with Transformer——阅读阶段
Revisiting Stereo Depth Estimation From a Sequence-to Sequence Perspective with TransformerAbstract 、Introduction、 Related Work、 立体深度估计、 STTR与先前工作的对比、Attention Mechanism and Transformer The Stereo 、Transformer Architecture、Feature Extractor、 Transform翻译 2021-08-21 16:37:00 · 1620 阅读 · 0 评论 -
Towards Robust Monocular Depth Estimation:Mixing Datasets for Zero-shot Cross-dataset Transfer——阅读阶段
超详细研读Towards Robust Monocular Depth Estimation:Mixing Datasets for Zero-shot Cross-dataset Transfer Monocular depth estimation, Single-image depth prediction, Zero-shot cross-dataset transfer, Multi-dataset training 单眼深度估计,单图像深度预测,零镜头跨数据集传输,多数据集训练翻译 2021-08-10 22:13:13 · 3154 阅读 · 8 评论 -
Vision Transformers for Dense Prediction——代码实践
Vision Transformers for Dense Prediction论文实践原创 2021-08-09 20:51:10 · 868 阅读 · 5 评论 -
Vision Transformers for Dense Prediction--阅读阶段
[论文研读]Vision Transformers for Dense Prediction以及相关知识点翻译 2021-08-09 10:12:45 · 2769 阅读 · 6 评论 -
Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data——代码实践
Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data——阅读阶段本次实践的代码地址:Real-ESRGAN这里第一次认识了Colab原创 2021-08-05 16:25:19 · 1975 阅读 · 0 评论 -
Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data-----阅读阶段
Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic DataBlind Super-Resolution:盲超分辨率Pure Synthetic Data:纯合成数据论文研读申明摘要在blind super-resolution领域中:现实世界中,恢复具有未知和复杂退化的低分辨率图像(restore low-resolution images with unknownand complex翻译 2021-08-04 21:11:21 · 4903 阅读 · 2 评论 -
Real-Time Super-Resolution System of 4K-Video Based on Deep Learning----代码实践
Real-Time Super-Resolution System of 4K-Video Based on Deep Learning1.ubuntu终端下载Github2.安装requirements.txt配置环境3.下载Testing Datasets4. 运行test.sh问题1:error:excepted one_argument问题2:import相关module,其在Vscode样式为白色,初步判定为未import成功问题3:_pickle.Unpickl原创 2021-08-03 21:48:07 · 1428 阅读 · 7 评论 -
Real-Time Super-Resolution System of 4K-Video Based on Deep Learning----阅读阶段
【论文研读】Real-Time Super-Resolution System of 4K-Video Based on Deep Learning EGVSR翻译 2021-08-03 19:37:22 · 1046 阅读 · 0 评论