论文阅读
文章平均质量分 81
乐亦亦乐
大道至简 知行合一
展开
-
EfficientFormer: Vision Transformers at MobileNetSpeed
论文地址:https://arxiv.org/abs/2206.01191https://arxiv.org/abs/2206.01191论文代码:GitHub - snap-research/EfficientFormerContribute to snap-research/EfficientFormer development by creating an account on GitHub.https://github.com/snap-research/EfficientFormer 延迟分原创 2022-07-07 20:47:31 · 575 阅读 · 0 评论 -
【Transformers论文】Global Context Vision Transformers
作者提出了全局上下文Vision Transformer(GCViT),这是一种提高参数和计算利用率的新架构。提出的方法利用全局上下文自注意模块,与局部自注意相结合,有效地建模长期和短期空间交互,而不需要昂贵的操作。...原创 2022-07-06 21:39:03 · 2187 阅读 · 0 评论 -
【轨迹预测】GraphTCN: Spatio-Temporal Interaction Modelingfor Human Trajectory Prediction
论文地址:https://openaccess.thecvf.com/content/WACV2021/papers/Wang_GraphTCN_Spatio-Temporal_Interaction_Modeling_for_Human_Trajectory_Prediction_WACV_2021_paper.pdfhttps://openaccess.thecvf.com/content/WACV2021/papers/Wang_GraphTCN_Spatio-Temporal_Interacti原创 2022-05-03 16:21:20 · 691 阅读 · 0 评论 -
【人物交互】Hierarchical Video Prediction using Relational Layouts for Human-Object Interactions
论文地址:https://openaccess.thecvf.com/content/CVPR2021/papers/Bodla_Hierarchical_Video_Prediction_Using_Relational_Layouts_for_Human-Object_Interactions_CVPR_2021_paper.pdfAbstract学习建模和预测人类在执行一个动作时如何与物体交互是一项具有挑战性的任务,而且大多数现有的视频预测模型在建模复杂的人-物体交互方面都是.原创 2022-03-24 21:57:11 · 438 阅读 · 0 评论 -
S2-MLP: Spatial-Shift MLP Architecture for Vision
原创 2021-12-03 16:20:01 · 2715 阅读 · 0 评论 -
MLP-Mixer: An all-MLP Architecture for Vision
class FeedForward(nn.Module): def __init__(self, dim, hidden_dim, dropout = 0.): super().__init__() self.net = nn.Sequential( nn.Linear(dim, hidden_dim), nn.GELU(), nn.Dropout(dropout), ...原创 2021-12-03 14:57:42 · 409 阅读 · 0 评论 -
【Image Restoration】Restormer: Efficient Transformer for High-Resolution Image Restoration
视觉新Transformer模型:Restormer,在多个图像恢复任务上取得了最先进的结果,包括图像去雨、单图像运动去模糊、散焦去模糊(单图像和双像素数据)和图像去噪等,优于SwinIR、IPT等网络。原创 2021-11-21 15:02:59 · 3282 阅读 · 0 评论 -
【医学图像分割】 MIXED Transformer 、DS-TransUNet、Swin-Unet
原创 2021-11-14 11:05:48 · 1307 阅读 · 0 评论 -
CSWin Transformer:A General Vision Transformer Backbone with Cross-Shaped Windows
论文地址:https://arxiv.org/abs/2107.00652https://arxiv.org/abs/2107.00652代码地址:GitHub - microsoft/CSWin-Transformer: CSWin Transformer: A General Vision Transformer Backbone with Cross-Shapedhttps://github.com/microsoft/CSWin-TransformerAbstract本文提出了CSW..原创 2021-11-08 21:03:47 · 633 阅读 · 1 评论 -
Swin Transformer (ICCV 2021 best paper)
论文地址:https://arxiv.org/abs/2103.14030https://arxiv.org/abs/2103.14030代码地址:https://github.com/microsoft/Swin-Transformerhttps://github.com/microsoft/Swin-Transformer本文参考了博文:Swin-Transformer网络结构详解_霹雳吧啦Wz-CSDN博客文章目录0 前言1 网络整体框架2 Patch Merging详解3 W-MSA详.原创 2021-11-07 16:12:26 · 997 阅读 · 0 评论 -
HRViT: Multi-Scale High-Resolution Vision Transformer
论文地址:https://arxiv.org/abs/2111.01236https://arxiv.org/abs/2111.01236暂时简单记录一下论文中设计的网络结构!原创 2021-11-06 18:41:50 · 535 阅读 · 1 评论 -
ParNet :NON-DEEP NETWORKS——12层网络
论文地址:https://arxiv.org/pdf/2110.07641.pdfhttps://arxiv.org/pdf/2110.07641.pdf代码地址:https://github.com/imankgoyal/NonDeepNetworkshttps://github.com/imankgoyal/NonDeepNetworks深度是深度神经网络的标志。但更多的深度意味着更多的计算和更高的延迟。这就引出了一个问题——有没有可能建立高性能的“非深度”神经网络?本文证明了可以。为此..原创 2021-11-02 20:46:33 · 2538 阅读 · 0 评论 -
【图像恢复】Dynamic Attentive Graph Learning for Image Restoration
ICCV 2021 基于动态图神经网络的图像修复方法论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Mou_Dynamic_Attentive_Graph_Learning_for_Image_Restoration_ICCV_2021_paper.pdfhttps://openaccess.thecvf.com/content/ICCV2021/papers/Mou_Dynamic_Attentive_Graph_Learning.原创 2021-10-27 20:53:12 · 1187 阅读 · 0 评论 -
【图像restoration】Multi-Stage Progressive Image Restoration
CVPR2021论文地址:https://arxiv.org/pdf/2102.02808.pdfhttps://arxiv.org/pdf/2102.02808.pdf代码原创 2021-10-16 16:55:00 · 1139 阅读 · 0 评论 -
【图像去模糊】SDWNet: A Straight Dilated Network with Wavelet Transformation for image Deblurring
ICCV2021:一种基于小波变换的直线型扩张网络图像去模糊方法论文地址:https://arxiv.org/abs/2110.05803https://arxiv.org/abs/2110.05803代码:GitHub - FlyEgle/SDWNet: An Straight Dilated Network with Wavelet for image Deblurring摘要现有的方法大多采用重复的上采样和下采样结构来增大感受野,导致采样过程中纹理信息丢失,其中一些设计多阶段从..原创 2021-10-15 20:23:43 · 1810 阅读 · 0 评论 -
【超分】Embedded Block Residual Network: A Recursive Restoration Model forSingle-Image Super-Resolution
ICCV2019论文地址:Embedded Block Residual Network: A Recursive Restoration Model for Single-Image Super-Resolution | IEEE Conference Publication | IEEE Xplorehttps://ieeexplore.ieee.org/abstract/document/9010860代码地址:https://github.com/alilajevardi/Embedded.原创 2021-10-04 20:04:37 · 737 阅读 · 0 评论 -
【图像去模糊】Rethinking Coarse-to-Fine Approach in Single Image Deblurring
论文地址:https://arxiv.org/pdf/2108.05054.pdfhttps://arxiv.org/pdf/2108.05054.pdf代码地址:https://github.com/chosj95/MIMO-UNethttps://github.com/chosj95/MIMO-UNet粗到精细的策略已被广泛应用于单个图像去模糊网络的体系结构设计。传统的方法通常将子网络与多尺度输入图像叠加,逐步提高图像从底层子网到顶层子网的清晰度,不可避免地产生较高的计算成本。为了...原创 2021-10-04 18:42:55 · 4830 阅读 · 12 评论 -
PP-LCNet 一个轻量级的CPU卷积神经网络
论文地址: 百度飞桨https://arxiv.org/abs/2109.15099https://arxiv.org/abs/2109.15099本文提出了一种基于MKLDNN加速策略的轻量级CPU网络,称为PP-LCNet。它提高了轻量级模型在多个任务上的性能。本文列出了在延迟几乎恒定的情况下提高网络精度的技术。通过这些改进,PP-LCNet的精度在相同的推理时间,可以大大超过以前的网络结构。由图1可以看出,PP-LCNet 精度提升且比MobileNetV3快3倍!现有问题:随着...原创 2021-10-03 13:23:45 · 4403 阅读 · 1 评论 -
【图像去雨】DCSFN: Deep Cross-scale Fusion Network for Single Image RainRemoval
代码地址:GitHub - Ohraincu/DCSFN: DCSFN: Deep Cross-scale Fusion Network for Single Image Rain RemovalDCSFN: Deep Cross-scale Fusion Network for Single Image Rain Removal - GitHub - Ohraincu/DCSFN: DCSFN: Deep Cross-scale Fusion Network for Single Image Rain R原创 2021-10-01 19:57:07 · 721 阅读 · 0 评论 -
【图像超分辨率】Unsupervised Degradation Representation Learning for Blind Super-Resolution
论文地址:https://arxiv.org/pdf/2104.00416.pdfhttps://arxiv.org/pdf/2104.00416.pdf代码:GitHub - LongguangWang/DASR: [CVPR 2021] Unsupervised Degradation Representation Learning for Blind Super-Resolutionhttps://github.com/LongguangWang/DASR为了处理现实应用中的各种未知退..原创 2021-09-29 22:08:26 · 2242 阅读 · 1 评论 -
【图像Restoration】Learning Enriched Features for Real Image Restoration and Enhancement
论文地址:https://arxiv.org/pdf/2003.06792.pdfhttps://arxiv.org/pdf/2003.06792.pdf代码地址:https://github.com/swz30/MIRNethttps://github.com/swz30/MIRNet本博客为阅读这篇论文的一些记录,其具体内容和代码可以参考原论文和github上官方实现。个人觉得论文中的图画的非常直观,代码的可读性也非常好,优雅!现有的基于CNN的方法通常在全分辨率或逐步低分辨率的...原创 2021-09-27 21:22:56 · 2695 阅读 · 0 评论 -
【图像去雾】Contrastive Learning for Compact Single Image Dehazing阅读
论文:https://arxiv.org/pdf/2104.09367.pdfhttps://arxiv.org/pdf/2104.09367.pdf代码:https://github.com/GlassyWu/AECR-Nethttps://github.com/GlassyWu/AECR-Net提出对比正则化;利用有雾图像和清晰图像的信息作为正负样本。确保恢复的图像远离模糊图像,而更接近清晰图像。其中 FA Block 来源于FFA-Net中的模块;论文中使用FA 模块作为AE (A..原创 2021-09-25 18:57:10 · 4826 阅读 · 10 评论 -
GhostNet: More Features from Cheap Operations 【阅读记录】
code :https: //github.com/huawei-noah/ghostnetpaper:https://arxiv.org/pdf/1911.11907.pdf摘要:如图1所示,卷积层的输出特征映射通常包含许多冗余,其中一些可能彼此相似。 我们指出,没有必要用大量的FLOP和参数逐个生成这些冗余特征映射。分析:# 2020.06.09-Changed for building GhostNet# ...原创 2021-02-05 13:09:49 · 245 阅读 · 0 评论 -
Object Detection in 20 Years: A Survey
转载自:https://blog.csdn.net/clover_my/article/details/92794719Object Detection in 20 Years: A SurveyZhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jieping Ye, Senior Member, IEEE论文获取:https://arxiv.org/abs/1905.05055v2目录Object Detection i.转载 2021-01-18 09:33:08 · 1587 阅读 · 0 评论 -
姿态估计——Real-time 2D Multi-Person Pose Estimation on CPU:Lightweight OpenPose
Abstract 在本工作中,我们调整了多人姿态估计体系结构,以便在边缘设备上使用它。我们遵循2016年COCO数据集关节点挑战获胜者OpenPose的自下而上的方法。通过提出的网络设计和优化后处理代码,完整的解决方案在英特尔®NUC6i7KY B mini PC上以每秒28帧(FPS)运行,在核心i7-6850K CPU上以26个FPS运行。该网络模型具有4.1M参数和90亿个浮点运算(GFLOPs)复杂度,仅∼基线2级OpenPose的15%,其质量几乎相同。该代码和模型可作为Intel®...原创 2020-11-30 11:06:00 · 2470 阅读 · 0 评论 -
姿态估计——LightTrack:A Generic Framework for Online Top-Down Human Pose Tracking
论文地址:https://arxiv.org/pdf/1905.02822.pdfgithub地址:https://github.com/Guanghan/lighttrack论文提出了轻量级的多目标跟踪框架LightTrack。包含YOLOV3的目标检测,基于CPN_res101,MSRA152,mobile_deconv这3个网络种任意一个的关键点检测,基于SGCN的人体姿势匹配。整体结构是一种自上而下的结构。主要贡献:提出了一个通用的基于自上而下的骨架跟踪框架。 提出了SGCN.原创 2020-11-29 13:17:46 · 928 阅读 · 0 评论 -
姿态估计——PifPaf:Composite Fields for Human Pose Estimation
本文仅作为自己学习过程的一个记录。论文地址:https://arxiv.org/pdf/1903.06593.pdfGitHub地址:https://github.com/vita-epfl/openpifpaf官方API:https://vita-epfl.github.io/openpifpaf/intro.html浏览器在线测试:https://vita-epfl.github.io/openpifpafwebdemo/https://www.cnpython.com/pyp.原创 2020-11-28 22:11:15 · 2878 阅读 · 0 评论 -
姿态估计——Deep High-Resolution Representation Learning for Human Pose Estimation阅读记录
论文地址:https://arxiv.org/pdf/1902.09212.pdfgithub:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch Deep High-Resolution Representation Learning for Human Pose EstimationAbstract 在本文中,我们对人体姿态估计问题...原创 2020-11-08 21:19:40 · 1236 阅读 · 0 评论 -
姿态估计——HigherHRNet:Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation
github:https://github.com/HRNet/HigherHRNet-Human-Pose-EstimationAbstract 自底向上的人体姿态估计方法由于尺度变化的挑战,在预测小个体的正确姿态方面存在困难。在这篇论文中,我们提出了HigherHRNet。一个新的自下而上的方法,使用高分辨率的特征金字塔学习scale-aware表达。多分辨率监督用于训练和多分辨率聚合用于推理,该方法能够解决自下而上多人姿态估计中的尺度变化挑战,并更精确地定位关键点,...原创 2020-11-08 15:54:50 · 1556 阅读 · 0 评论 -
姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation
论文原文:https://arxiv.org/pdf/1910.06278v1.pdfDARK 基于分布感知的关节点坐标表示方法Abstract热图实际上是人体姿态估计中的标准坐标表示,但是从未在文献中系统深入的研究过。本文将填补这个空白。第一次,我们发现,将预测热图解码为原始图像空间中的最终关节坐标这一过程对人体姿态估计的性能有着惊人的重要意义。我们进一步探讨了标准坐标解码方法的设计局限性,并提出了可感知的分布式解码方法。我们也改进了标准坐标编码的过程(将ground-truth...原创 2020-11-07 16:03:16 · 3252 阅读 · 1 评论 -
OpenPose——Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
OpenPose论文原文:https://arxiv.org/pdf/1611.08050.pdfAbstract我们提出了一种有效检测多人图像中的2D姿势的方法。 该方法使用非参数表示,我们称之为部分亲和力字段(PAF),用于学习将图像中的身体部位与个体联系起来。 该体系结构编码全局上下文,允许贪婪的自下而上解析步骤,无论图像中的人数多少,同时实现高精度和实时性能。 架构旨在将学习关节点和关节点之间...转载 2020-10-13 19:10:13 · 830 阅读 · 0 评论 -
DeepPose:Human Pose Estimation via Deep Neutral NetWorks
DeepPose论文原文:https://arxiv.org/pdf/1312.4659.pdf图1.除了关节的极度变异性外,许多关节几乎看不见。我们可以在左边的图像中猜测右臂的位置,这仅仅是因为我们看到了其余的姿势,并预测了这个人的动作或活动。同样的,右边的图片中左边的身体一半根本看不见。这些是需要进行整体推理的例子。我们相信,DNNs能够自然地提供这种类型的推理。摘要我们提出了一种基于...转载 2020-10-13 16:24:01 · 745 阅读 · 0 评论 -
PSPNet——Pyramid Scene Parsing Network
什么是PSPNet模型?PSPNet模型最主要的特点是采用了PSP模块。该模型提出的金字塔池化模块(Pyramid Pooling Module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。实验表明这样的先验表示(即指代PSP这个结构)是有效的,在多个数据集上展现了优良的效果。PSP结构的功能是将获取到的特征层划分成不同大小的网格,每个网格内部各自进行平均池化。实现聚合不同区域的上下文信息,从而提高获取全局信息的能力。在PSPNet中,PSP结构典型情况下,会将输入进来的特征层转载 2020-09-28 18:18:47 · 2163 阅读 · 0 评论 -
PMFNet——Pose-aware Multi-level Feature Network for Human Object Interaction Detection
本文提出了一种新颖的人-物体交互检测模型,在多个数据集上该方法展现出大大优于现有最佳方法的性能。在人-物体交互检测任务中,人与物体交互方式的多样性及交互场景的复杂性,相比于传统的视觉任务存在更多挑战。研究人员提出了一种多层级(multi-level)的交互关系识别策略,包括交互域、物体、人体语义三个层级。具体来说,本文提出了一种多分枝网络结构的模型,该模型利用人体姿态信息,通过基于注意力机制动态放大(Zoom-in)交互关系相关人体语义区域以增强该区域的特征,并在此基础上对全局特征进行融合,从而进一步提原创 2020-09-25 18:03:33 · 596 阅读 · 0 评论 -
UniPose:Unified Human Pose Estimation in Single Images and Videos
论文地址:https://arxiv.org/abs/2001.080951.摘要作者基于“Waterfall” Atrous Spatial Pooling 体系结构,提出了UniPose。 利用标准CNN架构的当前姿态估计方法在很大程度上依赖于统计后处理或预定义的anchor 姿态进行联合定位。 UniPose结合了上下文分割和联合定位功能,可以在不依赖统计后处理方法的情况下,在单阶段高精度地估计人体姿势。 UniPose中的Waterfall模块利用级联体系结构中渐进式过滤的效率,同时保持与空转载 2020-09-25 10:48:54 · 1571 阅读 · 1 评论 -
AlphaPose —— RMPE:Regional Multi-Person Pose Estimation 论文翻译+源码运行+知识点
论文原文:https://arxiv.org/pdf/1612.00137.pdf AlphaPose0 Abstract复杂环境中的多人姿态检测是非常具有挑战性的。现在最好的人体检测算法虽然已经得到了很好的效果,但是依然存在一些错误,这些错误会导致单人检测任务single-person pose estimator(SPPE)失败,尤其是那些十分依赖人体框检测结果的。这里应该是描述的自顶向下的...原创 2020-09-24 22:44:19 · 2882 阅读 · 9 评论 -
SSD —— Single Shot MultiBox Detector
SSD摘要我们提出了一种使用单个深度神经网络来检测图像中的目标的方法。我们的方法命名为SSD,将边界框的输出空间离散化为不同长宽比的一组默认框和并缩放每个特征映射的位置。在预测时,网络会在每个默认框中为每个目标类别的出现生成分数,并对框进行调整以更好地匹配目标形状。此外,网络还结合了不同分辨率的多个特征映射的预测,自然地处理各种尺寸的目标。相对于需要目标提出的方法,SSD非常简单,因为它完全...转载 2020-09-23 21:46:32 · 603 阅读 · 0 评论 -
R-CNN ——Rich feature hierarchies for accurate object detection and semantic segmentation Tech report
R-CNN论文原文:https://arxiv.org/pdf/1311.2524.pdf摘要目标检测技术在数据集PASCAL VOC上的性能,在过去几年中发展的比较平缓。最好的方法是复杂的集成系统,典型的方法是组合多个低水平的图像特征成为高水平的上下文特征。本文提出了一种简单且可伸缩的目标检测算法,相比之前最好的算法,在2010VOC数据集上mAP有了30%的提升,达到了53...转载 2020-09-21 11:00:04 · 612 阅读 · 0 评论 -
YOLO —— You Only Look Once:Unified,Real-Time Objection Detection
YOLO摘要我们提出了YOLO,一种新的目标检测方法。以前的目标检测工作重新利用分类器来执行检测。相反,我们将目标检测框架看作回归问题从空间上分割边界框和相关的类别概率。单个神经网络在一次评估中直接从完整图像上预测边界框和类别概率。由于整个检测流水线是单一网络,因此可以直接对检测性能进行端到端的优化。我们的统一架构非常快。我们的基础YOLO模型以45帧/秒的速度实时处理图像。网络的一个较小...转载 2020-09-20 22:08:40 · 517 阅读 · 0 评论 -
GooleNet —— Going Deeper with Convoluitions
GooleNet摘要我们在ImageNet大规模视觉识别挑战赛2014(ILSVRC14)上提出了一种代号为Inception的深度卷积神经网络结构,并在分类和检测上取得了新的最好结果。这个架构的主要特点是提高了网络内部计算资源的利用率。通过精心的手工设计,我们在增加了网络深度和广度的同时保持了计算预算不变。为了优化质量,架构的设计以赫布理论和多尺度处理直觉为基础。我们在ILSVRC14提交中应用的一个特例被称为...转载 2020-09-20 21:26:31 · 233 阅读 · 0 评论