深度学习论文分享
文章平均质量分 94
澪mio
我不是二刺猿
展开
-
深度学习论文分享(九)Unifying Motion Deblurring and Frame Interpolation with Events
在此仅做翻译基于帧的相机快门速度慢,曝光时间长,往往会造成视觉模糊和帧间信息丢失,从而降低拍摄视频的整体质量。为此,我们提出了一个基于事件的运动去模糊和帧插值的统一框架,用于模糊视频增强,其中利用极低的事件延迟来缓解运动模糊并促进中间帧预测。首先利用可学习的二重积分网络预测模糊帧与锐隐图像之间的映射关系,然后利用连续模糊输入和并发事件的信息,提出融合网络对粗糙结果进行细化。通过探索模糊帧、潜在图像和事件流之间的相互约束,我们进一步提出了一种自监督学习框架,使网络训练能够使用真实世界的模糊视频和事件。原创 2023-09-01 10:46:15 · 416 阅读 · 0 评论 -
深度学习论文分享(八)Learning Event-Driven Video Deblurring and Interpolation
暂无??在此仅做翻译基于事件的传感器在像素强度变化超过触发阈值时具有响应,可以以微秒级精度捕获高速运动。在事件相机的辅助下,我们可以从低帧率的模糊视频中生成高帧率的清晰视频。本文提出了一种有效的基于深度卷积神经网络(cnn)的事件驱动视频去模糊和插值算法。基于模糊图像和锐帧之间的残差是事件积分的物理模型,该网络利用事件来估计锐帧恢复的残差。由于触发阈值的空间变化,我们提出了一种有效的估计动态滤波器的方法来解决这一问题。为了利用时间信息,还考虑了从之前的模糊帧恢复的清晰帧。原创 2023-08-30 19:42:05 · 347 阅读 · 0 评论 -
深度学习论文分享(七)Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild
论文代码:在此仅做翻译扩散模型在单幅图像的超分辨率和其他图像到图像的转换任务中显示出很好的结果。尽管取得了成功,但它们在更具挑战性的盲超分辨率任务上的表现并没有超过最先进的GAN模型,在盲超分辨率任务中,输入图像没有分布,并且存在未知的退化。本文介绍了一种基于扩散的盲超分辨模型SR3+,建立了一种新的技术。为此,我们提倡将自监督训练的复合、参数化退化和训练和测试过程中的噪声调节增强相结合进行自监督训练。通过这些创新,大规模卷积架构和大规模数据集,SR3+大大优于SR3。原创 2023-08-16 14:18:32 · 595 阅读 · 0 评论 -
深度学习论文分享(六)Simple Baselines for Image Restoration
在此仅做翻译尽管近年来在图像恢复领域取得了重大进展,但最先进的(SOTA)方法的系统复杂性也在增加,这可能会阻碍方法的方便分析和比较。在本文中,我们提出了一个简单的基线,它超过了SOTA方法,并且计算效率很高。为了进一步简化基线,我们揭示了非线性激活函数,如Sigmoid, ReLU, GELU, Softmax等是不必要的:它们可以用乘法代替或删除。因此,我们从基线推导出一个非线性激活自由网络,即NAFNet。原创 2023-08-03 23:49:20 · 847 阅读 · 0 评论 -
深度学习论文分享(五)DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion
在此仅做翻译多模态图像融合的目的是将不同的模态结合在一起,产生融合的图像,这些图像保留了每种模态的互补特征,如功能亮点和纹理细节。为了利用强大的生成先验并解决基于gan的生成方法的训练不稳定和缺乏可解释性等挑战,我们提出了一种基于去噪扩散概率模型(DDPM)的新型融合算法。将融合任务表述为DDPM采样框架下的条件生成问题,并进一步划分为无条件生成子问题和极大似然子问题。后者是在一个层次贝叶斯方式与潜在变量建模,并通过期望最大化算法推断。原创 2023-07-25 18:29:36 · 1354 阅读 · 2 评论 -
深度学习论文分享(四)Retentive Network: A Successor to Transformer for Large Language Models
在此仅做翻译在这项工作中,我们提出保留网络(RETNET)作为大型语言模型的基础架构,同时实现训练并行性,低成本推理和良好的性能。我们从理论上推导了递归和注意力之间的联系。然后提出了序列建模的保留机制,该机制支持并行、递归和块递归三种计算范式。具体来说,并行表示允许训练并行性。循环表示支持低成本的O(1)推理,从而在不牺牲性能的情况下提高解码吞吐量、延迟和GPU内存。块递归表示促进了具有线性复杂性的高效长序列建模,其中每个块在循环汇总块的同时并行编码。原创 2023-07-24 18:14:59 · 888 阅读 · 0 评论 -
深度学习论文分享(三)Look More but Care Less in Video Recognition(NIPS2022)
在此仅做翻译(经过个人修改,有基础的话应该不难理解),有时间会有详细精读笔记。现有的动作识别方法通常会采样几帧来表示每个视频,以避免大量的计算,这往往会限制识别性能。为了解决这个问题,我们提出了 Ample and Focal Network (AFNet),它由两个分支组成,以利用更多的帧但计算量更少。具体来说,Ample Branch 通过压缩计算获取所有输入帧以获得丰富的信息,并通过所提出的 Navigation Module 为 Focal Branch 提供指导;原创 2023-06-03 20:35:54 · 498 阅读 · 0 评论 -
深度学习论文分享(二)Data-driven Feature Tracking for Event Cameras
在此仅做翻译(经过个人修改,有基础的话应该不难理解),有时间会有详细精读笔记。由于其高时间分辨率、增强的运动模糊恢复能力和非常稀疏的输出,事件摄像机已被证明是低延迟和低带宽特征跟踪的理想选择,即使在具有挑战性的场景中也是如此。现有的事件摄像机特征跟踪方法要么是手工制作的,要么是从第一性原理推导出来的,但需要大量的参数调整,对噪声敏感,并且由于未建模的效果而不能推广泛化到不同的场景。为了解决这些不足,我们为事件摄像机引入了第一个数据驱动的特征跟踪器,它利用低延迟事件来跟踪在灰度帧中检测到的特征。原创 2023-04-26 20:54:46 · 1399 阅读 · 1 评论 -
深度学习论文分享(一)ByteTrackV2: 2D and 3D Multi-Object T racking by Associating Every Detection Box
在此仅做翻译(经过个人调整,有基础的话应该不难理解),有时间会有详细精读笔记。多目标跟踪(MOT)旨在估计视频帧内物体的边界框和身份。检测框是二维和三维MOT的基础。检测分数不可避免的变化会导致跟踪后的目标缺失。我们提出了一种分层的数据关联策略来挖掘低分检测框中的真实目标,缓解了目标缺失和轨迹碎片化的问题。简单而通用的数据关联策略在2D和3D设置下都显示了有效性。在3D场景中,跟踪器更容易预测世界坐标中的物体速度。原创 2023-04-09 19:55:12 · 1483 阅读 · 1 评论