算法复现_请站在我身后的博客-CSDN博客

算法复现

关注

文章平均质量分 84

关注数：文章数：28 文章阅读量：35922 文章收藏量：530

作者: 请站在我身后

写点东西，记录看的论文和代码，从事算法，想看未来

展开

专栏收录文章

无声视频自动配音效，开源模型thinksound 和mmaudio复现

最近ASMR 的视频蛮火的，就是切开任何东西会发出声音，但我看教程都是走到app 的自动生成音效感觉无趣，还是自己复现

原创 2025-07-18 13:23:36 · 1202 阅读 · 0 评论
ComfyUI_PuLID_Flux 和ComfyUI_PuLID_Flux_ll 的复现

效果不错的基于flux 的脸部参考文生图

原创 2025-03-07 15:46:44 · 765 阅读 · 0 评论
复现Qwen-Audio 千问

（Qwen 大型音频语言模型）是阿里云提出的大型模型系列 Qwen（简称通义千文）的多模态版本。Qwen-Audio 接受各种音频（人类语音、自然声音、音乐和歌曲）和文本作为输入、输出文本。QwenLM/Qwen-Audio：Qwen-Audio（通义千问-Audio）聊天的官方仓库和由阿里云提出的预训练大型音频语言模型。query 传入的是音频地址，text是提示词，因为可以连续问答，所有history可以多加利用。复现没遇到什么问题，如果遇到问题，请留言。3、新建test.py 复制下面代码。

原创 2024-12-25 15:26:28 · 1362 阅读 · 2 评论
最新的强大的文生视频模型Pyramid Flow 论文阅读及复现

论文提出了一种高效的视频生成建模方法，称为金字塔流匹配，旨在通过降低计算复杂度来优化视频生成过程。该方法避免了直接在全分辨率下进行训练，而是将视频生成过程分解为多个在不同分辨率下运行的金字塔阶段，仅在最终阶段达到全分辨率。连续性：不同金字塔阶段的生成轨迹相互链接，后续阶段继续从前一阶段生成，避免了每个阶段从纯噪声重新生成的需要。统一模型：与为每个图像金字塔使用独立模型不同，金字塔流匹配算法将它们集成到一个统一的模型中，通过端到端优化实现更优雅的实现，并大幅加快训练速度。

原创 2024-12-25 15:16:41 · 1988 阅读 · 3 评论
分享部分dance 数据集

分享一些dance 数据集

原创 2024-12-03 17:56:56 · 1785 阅读 · 0 评论
复现《Bidirectionally Deformable Motion Modulation》代码简单说明

代码复现Bdmm

原创 2024-12-03 17:42:26 · 879 阅读 · 0 评论
读论文《Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer》

本文提出了一种新颖的变形运动调制（Deformable Motion Modulation, DMM）方法，用于基于视频的人体姿态转移任务，该任务旨在根据一系列目标人体姿态来动画化一个简单的源人体图像。针对在服装结构图案传递和不连续姿态上存在的问题，现有方法常常产生不满意的结果，如扭曲的纹理和闪烁的伪影。我们的方法利用几何核偏移和自适应权重调制来同时执行特征对齐和风格迁移。与通常的风格调制不同，我们提出的调制机制根据目标形状通过不规则的感受野来适应性地重建风格代码的平滑帧。为了增强时空一致性，我们。

原创 2024-12-02 10:56:22 · 1164 阅读 · 0 评论
读论文和复现《Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance》

本研究介绍了一种通过在潜在扩散框架内利用3D人体参数模型来增强形状对齐和运动指导的人类图像动画方法。该方法使用SMPL（Skinned Multi-Person Linear）模型作为3D人体参数模型，以建立身体形状和姿态的统一表示，从而准确捕捉源视频中复杂的人体几何和运动特征。通过结合SMPL序列生成的渲染深度图像、法线贴图和语义贴图，以及基于骨骼的运动指导，为潜在扩散模型提供了全面的3D形状和详细姿态属性。采用集成自注意力机制的多层运动融合模块，在空间域中融合形状和运动潜在表示。

原创 2024-11-05 17:50:42 · 1717 阅读 · 1 评论
读论文《SHOW-O》8.22发布的贼强的大模型多模态理解和生成解决方案

Show-o，它统一了多模态理解和生成。与完全自回归模型不同，Show-o 统一了自回归和（离散）扩散建模，以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务，包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中，它展示了与现有单个模型相当或更好的性能，这些模型具有等效或更多为理解或生成而定制的参数。这显著凸显了其作为下一代基础模型的潜力。听着很厉害，不同模态完全混合。

原创 2024-08-27 15:40:24 · 2682 阅读 · 0 评论
读论文《Contrastive Diffusion Model with Auxiliary Guidance for Coarse-to-Fine PET Reconstruction》

该论文提出了一种基于对比扩散模型（Contrastive Diﬀusion Model）并结合辅助引导（Auxiliary Guidance）的粗到细（Coarse-to-Fine）PET重建框架。这种框架包括一个粗预测模块（Coarse Prediction Module, CPM）和一个迭代细化模块（Iterative Refinement Module, IRM）。CPM通过确定性过程生成粗PET图像，而IRM则迭代地采样残差。通过将大部分计算开销委托给CPM，显著提高了整体采样速度。

原创 2024-08-16 16:43:42 · 1178 阅读 · 0 评论
读论文《Diffusion Probabilistic Priors for Zero-Shot Low-Dose CT Image Denoising》

零样本低剂量CT图像去噪的扩散概率先验这篇论文主要研究了一种新的无监督方法，用于降低剂量计算机断层扫描（Low-Dose CT, LD-CT）图像的噪声。这种方法不需要成对的低剂量和正常剂量CT图像进行训练，而是仅使用正常剂量CT图像进行训练，以实现对低剂量CT图像的零样本去噪。

原创 2024-08-15 15:38:16 · 1287 阅读 · 0 评论
u2net 和u2netp 的具体区别

U2Net和U2NetP是两种基于深度学习的图像分割模型，它们都使用了编码器-解码器架构和跳跃连接来提高分割的精度。然而，它们在网络结构和参数配置上存在一些差异。这些差别反映了U2NetP是U2Net的一个轻量级版本，通过减少参数和简化网络结构来提高运行效率，可能以牺牲一些精度为代价。

原创 2024-08-15 14:45:33 · 1325 阅读 · 0 评论
读论文：《CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoising》

低剂量计算机断层扫描（LDCT）去噪是CT研究中的一个重要问题。与正常剂量CT（NDCT）图像相比，LDCT图像在临床应用中会受到严重的噪声和伪影的影响。最近的许多研究表明，视觉变换器在特征表示能力上优于卷积神经网络（CNN）。然而，与CNN不同，视觉变换器在LDCT去噪方面的潜力至今尚未得到充分探索。为了填补这一空白，我们提出了一种无需卷积的Token2Token扩张视觉变换器（CTformer）用于低剂量CT去噪。CTformer使用更强大的Token重排来包含局部上下文信息，从而避免使用卷积。

原创 2024-08-12 11:52:37 · 1711 阅读 · 4 评论
读论文《LIT-Former: Linking In-plane and Through-planeTransformers for Simultaneous CT ImageDenoising》

这篇论文研究了3D低剂量计算机断层扫描（CT）成像技术。尽管已经开发了多种深度学习方法，但它们通常专注于2D图像，并且分别对低剂量引起的噪声进行去噪和对超分辨率进行去模糊处理。到目前为止，很少有工作同时进行平面内去噪和平面外去模糊，这对于获得辐射更低、成像速度更快的高质量3D CT图像非常重要。对于这项任务，直接训练一个端到端的3D网络是一种直接的方法。然而，这需要更多的训练数据和昂贵的计算成本。

原创 2024-08-09 17:53:24 · 952 阅读 · 2 评论
ResViT 代码复现和讲解

论文题目：ResViT: Residual vision transformers for multi-modal medical image synthesis一种新的用于多模态医学图像合成的生成对抗方法。

原创 2024-07-22 16:28:55 · 1189 阅读 · 3 评论
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthesis 代码

Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthesis 代码复现和讲解。

原创 2024-07-19 16:45:15 · 1018 阅读 · 0 评论
读论文《Unsupervised Polychromatic Neural Representation for CT Metal Artifact Reduction》

论文提出了一种新颖的多色神经表示方法（Polyner），用于解决人体内部金属植入物引起的CT成像中的金属伪影问题。CT金属伪影源于金属对X射线光谱不同能量层的衰减系数的剧烈变化，导致CT测量中的非线性金属效应。传统的基于经验模型的金属伪影减少（MAR）方法会导致信号损失和重构混叠。Polyner从非线性逆问题的角度对MAR问题进行建模，首先推导出一个多色前向模型来准确模拟非线性CT采集过程，然后将其整合到隐式神经表示中以完成重建，并采用正则化项来保持CT图像在不同能量层的物理属性，同时有效约束解空间。

原创 2024-07-12 17:14:04 · 1822 阅读 · 0 评论
《Unpaired Unsupervised CT Metal ArtifactReduction》代码讲解

论文讲解见上篇博客这篇论文的标题是《Unpaired Unsupervised CT Metal Artifact Reduction》，作者是Bo-Yuan Chen和Chu-Song Chen。这篇论文主要研究了如何使用深度学习技术来减少医学成像中由于金属植入物引起的CT图像伪影。项目给出了几个不同的unet网络的实验，以pytorch_Net.py举例。

原创 2024-07-10 14:43:31 · 581 阅读 · 0 评论
DIF-Gaussian 代码讲解

这篇论文的标题是《Learning 3D Gaussians for Extremely Sparse-View Cone-Beam CT Reconstruction》，作者是Yiqun Lin, Hualiang Wang, Jixiang Chen和Xiaomeng Li，来自香港科技大学以及HKUST深圳-香港协同创新研究院。这篇论文主要探讨了一种新的锥束计算机断层扫描（CBCT）重建框架，称为DIF-Gaussian，旨在通过使用更少的投影来减少辐射剂量，同时提高重建图像的质量。

原创 2024-07-09 14:57:15 · 1206 阅读 · 1 评论
读论文《Learning 3D Gaussians for ExtremelySparse-View Cone-Beam CT Reconstruction》MICCAI 2024.

锥束计算机断层扫描（CBCT）是医学成像中不可或缺的技术，但其相关的辐射暴露在临床实践中引起关注。为了降低这些风险，稀疏视图重建已成为重要的研究方向。尽管已经引入了隐式神经表示进行稀疏视图CBCT重建，现有方法主要关注从稀疏投影中查询局部2D特征，这对于处理更复杂的解剖结构（如胸部）是不够的。为此，作者提出了一种新的重建框架DIF-Gaussian，利用3D高斯来表示3D空间中的特征分布，提供额外的3D空间信息以便于估计衰减系数。

原创 2024-07-09 14:10:39 · 1053 阅读 · 0 评论
OSCNET+ 代码复现

项目github 已有，开个博客大家如果复现有问题可以随时在下面留言。当然自己用肯定是自己写dataload，我就不放自己的代码了。1、从github 下载项目并解压。4、想直接测试也有提供权重。

原创 2024-07-08 16:16:32 · 456 阅读 · 1 评论
《Rigid and Non-rigid Motion Artifacts Reduction in X-ray CT using Attention Module》代码复现与简单讲解

论文请参考上篇博客任务：CBCT 运动伪影去除。

原创 2024-06-27 11:01:19 · 525 阅读 · 0 评论
QS-Attn 论文和代码运行讲解——图像风格迁移

非配对图像到图像(I2I)翻译通常需要最大化跨不同域的源图像和翻译图像之间的互信息，这对于生成器保留源内容并防止其进行不必要的修改至关重要。自监督对比学习已经在I2I中得到成功的应用。通过约束来自相同位置的特征比来自不同位置的特征更接近，它隐含地确保了结果从源获取内容。然而，以往的工作使用随机位置的特征来施加约束，由于某些位置包含的源域信息较少，可能不合适。而且，特征本身并不能反映与他人的关系。本文通过有意选择有意义的锚点进行对比学习来解决这些问题。

原创 2024-06-17 10:17:20 · 1207 阅读 · 0 评论
让像素艺术家失业！像素化代码实操教程

本文介绍大佬写的一篇图像像素化的操作方式，十分简单！跟着来十分钟就好，大家可以用来生成自己的像素风格的头像之类的，代码详情有需要再讲。

原创 2024-06-14 11:02:25 · 1309 阅读 · 0 评论
DGSR 论文与代码对照讲解

将用户序列建模和用户之间的动态交互信息统一到一个框架中。提出了一种新的动态图神经网络顺序推荐方法(DGSR)，该方法通过动态图结构连接不同用户的顺序，设计了一个动态图注意力神经网络来实现不同用户及其序列在动态图中的信息传播和聚合。简单来讲，在t=目标-1的位置构建知识图谱，提取到子图后进行嵌入，利用网络提取到特征进行协同过滤，详细的将在下面根据论文讲解。

原创 2024-06-13 22:41:42 · 1454 阅读 · 0 评论
CycleGAN image2image 代码讲解

CycleGAN，即循环生成对抗网络，出自发表于 ICCV17 的论文《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》，和它的兄长Pix2Pix（均为朱大神作品）一样，用于图像风格迁移任务。以前的GAN都是单向生成，CycleGAN为了突破Pix2Pix对数据集图片一一对应的限制，采用了双向循环生成的结构，因此得名CycleGAN。

原创 2024-06-13 10:10:54 · 865 阅读 · 0 评论
DCLGAN网络论文解读和代码对照讲解

一种基于对比学习（contrastive learning）和双学习设置（dual learning setting）的新方法，用于无监督的图像到图像翻译任务。这种方法被称为DCLGAN（Dual Contrastive Learning for Unsupervised Image-to-Image Translation）方法：对比学习；双GAN，任务：图像翻译，优势：非对称，对比学习来最大化输入和输出图像块之间的互信息，两个不同的编码器（encoders）来学习不同域的特征G：X->Y 任务。

原创 2024-06-12 11:49:50 · 1854 阅读 · 0 评论
SynthRAD2023 CBCT冠军论文代码复现

1、仅学习使用，有侵权行为请务必联系我，SynthRAD2023任务2 冠军代码初略复现

原创 2024-06-11 11:28:05 · 1405 阅读 · 12 评论

算法复现

作者: 请站在我身后

无声视频自动配音效，开源模型thinksound 和mmaudio复现

ComfyUI_PuLID_Flux 和ComfyUI_PuLID_Flux_ll 的复现

复现Qwen-Audio 千问

最新的强大的文生视频模型Pyramid Flow 论文阅读及复现

分享部分dance 数据集

复现《Bidirectionally Deformable Motion Modulation》代码简单说明

读论文《Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer》

读论文和复现《Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance》

读论文《SHOW-O》8.22发布的贼强的大模型多模态理解和生成解决方案

读论文《Contrastive Diffusion Model with Auxiliary Guidance for Coarse-to-Fine PET Reconstruction》

读论文《Diffusion Probabilistic Priors for Zero-Shot Low-Dose CT Image Denoising》

u2net 和u2netp 的具体区别

读论文：《CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoising》

读论文《LIT-Former: Linking In-plane and Through-planeTransformers for Simultaneous CT ImageDenoising》

ResViT 代码复现和讲解

Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthesis 代码

读论文《Unsupervised Polychromatic Neural Representation for CT Metal Artifact Reduction》

《Unpaired Unsupervised CT Metal ArtifactReduction》代码讲解

DIF-Gaussian 代码讲解

读论文《Learning 3D Gaussians for ExtremelySparse-View Cone-Beam CT Reconstruction》MICCAI 2024.

OSCNET+ 代码复现

《Rigid and Non-rigid Motion Artifacts Reduction in X-ray CT using Attention Module》代码 复现与简单讲解

QS-Attn 论文和代码运行讲解——图像风格迁移

让像素艺术家失业！像素化代码实操教程

DGSR 论文与代码对照讲解

CycleGAN image2image 代码讲解

DCLGAN网络 论文解读和代码对照讲解

SynthRAD2023 CBCT冠军论文 代码复现

《Rigid and Non-rigid Motion Artifacts Reduction in X-ray CT using Attention Module》代码复现与简单讲解

DCLGAN网络论文解读和代码对照讲解

SynthRAD2023 CBCT冠军论文代码复现