deep-learning
文章平均质量分 88
Xavier Jiezou
Python开发者 | 网络爬虫 | 图像处理 | 计算机视觉 | 人工智能 | 深度学习 | 微信公众号【干货共享菌】 | 微信号【wxhghgxj】 | 邮箱【878972272@qq.com】
展开
-
【论文阅读】TDANet:一种具有自上而下注意力的用于语音分离的高效自编码器架构(ICLR 2023)
问题描述:现有语音分离模型无法兼顾效率和性能。解决方案:本文基于脑启发,提出了一个能够模拟大脑自上而下注意力的高效自编码器架构用于语音分离任务。具体地,它利用全局注意力(GA)模块和级联的局部注意力(LA)模块来获得一个自上而下的注意力表示。实验结果:在三个基准数据集上进行了实验,与之前的 SOTA 模型 Sepformer 相比,TDANet 实现了一致性的具有竞争力的性能,并且效率极高。原创 2023-02-10 00:34:04 · 2897 阅读 · 1 评论 -
多目视频跟踪问题中的物体表示方法探究
如何表示物体是跟踪算法需要考虑的首要问题。跟踪问题中物体的定义是宽泛的,它可以是任何在后续分析和处理的过程中我们可能感兴趣的内容。因而根据物体形状和实际需求的不同,不同物体甚至同一类物体在跟踪问题中都可能有着不同的表达方式。下图以人体为例展示了物体表达的一些具体形式:采用何种物体表示方法取决于观测模型的定义或者前端物体定位技术的选择,例如物体检测对应的是基于区域的物体跟踪,人体姿态估计对应的是基于点表示的物体跟踪。目前主流的物体跟踪算法多采用这两种物体表示方法。值得注意的是,对于多目视频中的跟踪问题我们通常原创 2022-09-07 15:48:17 · 1829 阅读 · 0 评论 -
去噪扩散概率模型(DDPM)的简单理解
扩散模型最近在图像生成领域取得了巨大的成功,类似 OpenAI 的DALL-E 2,Google 的Imagen,以及 Stability AI 最近发行的能够达到商业级绘画目的的等,都是基于扩散模型来进行图像生成的。本文对知乎上各位大佬对于扩散模型(特别是 DDPM)的讲解进行了融合,带领大家深入浅出理解扩散和逆扩散过程。模型总览图2 DDPM 是经过训练以逐渐去除噪声数据的参数化马尔可夫链。我们估计生成过程的参数。forward 加噪过程(从右往左)reverse 去噪过程(从左往右)原创 2022-09-05 15:01:56 · 16425 阅读 · 0 评论 -
【论文阅读】RePaint: Inpainting using Denoising Diffusion Probabilistic Models(CVPR 2022)
问题描述:自由形式的图像修复是在由任意二进制掩码指定的区域中向图像添加新内容的任务。大多数现有的方法针对特定的掩码分布进行训练,这将它们的泛化能力限制到看不见的掩码类型。此外,基于 pixel-wise 和 perceptual 损失的训练通常会导致对缺失区域的简单纹理扩展,而不是语义上有意义的生成。.....................原创 2022-08-28 15:06:49 · 14847 阅读 · 11 评论 -
【论文阅读】LaMa: Resolution-robust Large Mask Inpainting with Fourier Convolutions(WACV 2022)
问题描述:目前的图像修复算法在大块缺失区域、复杂几何结构以及高分辨率图像上的修复效果差强人意。原因分析:在修复网络和损失函数都缺少有效的感受野。解决方案:1)使用 fast Fourier convolutions(FFCs)以获取更大(wide)的感受野;2)使用一个更大(high)感受野的 perceptual loss(感知损失);3)训练的时候采用更大(large)的 mask 来验证前 2 步改进的效果。实验结果:超过了以往的 SOTA 模型,鲁棒性。............原创 2022-08-26 15:02:34 · 6362 阅读 · 6 评论