- 博客(460)
- 资源 (19)
- 问答 (1)
- 收藏
- 关注
原创 论文简读:Qwen3-VL Technical Report | Qwen3VL技术报告
demo:模型:或github:是Qwen系列中能力最强的,在多模态基准测试中表现优异。该模型,无缝整合文本、图像和视频。(2B/4B/8B/32B)和(30B-A3B/235B-A22B),以适应不同延迟-质量权衡。Qwen3-VL交付三大核心支柱:(i),在某些场景超越同类纯文本骨干模型;(ii),原生支持256K标记窗口,适用于文本和交错多模态输入,能忠实保留、检索及跨长文档/视频交叉引用;(iii)
2025-12-21 22:05:18
1015
原创 论文简读 InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
InternVL3.5,一个新型开源多模态模型系列,在泛化性、推理能力和效率方面显著优于前代。核心创新包括:级联强化学习(Cascade RL):结合离线RL(用于稳定训练)和在线RL(用于精细对齐),提升推理能力。视觉分辨率路由器(ViR):动态调整视觉标记分辨率,以可忽略的性能损失降低计算成本。解耦视觉-语言部署(DvD):将视觉编码器与语言模型分置于不同GPU,优化计算负载。这些技术使模型在整体性能上实现 +16.0% 的提升,推理速度达 4.05× 加速。最大模型 InternVL3.5-
2025-12-21 21:04:26
896
原创 论文简读:Qwen2.5-VL Technical Report
Qwen2.5-VL是Qwen视觉语言系列的旗舰模型,在基础能力与创新功能上均有显著提升。该模型具备增强的视觉识别、精确目标定位(支持边界框/点)、稳健的文档解析及长视频理解能力。核心技术创新包括:引入动态分辨率处理与绝对时间编码,支持原生感知空间尺度与时间动态,可处理任意尺寸图像和长达数小时的视频,并实现秒级事件定位。采用从头训练的原生动态分辨率ViT与窗口注意力(Window Attention),在保持原生分辨率的同时显著降低计算开销。关键性能表现:Qwen2.5-VL-72B在
2025-12-21 18:14:01
884
原创 论文简读:InternVL3| Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
介绍InternVL3(InternVL系列重大升级):实现原生多模态预训练(预训练阶段同步习得语言与多模态能力,规避传统后训练复杂优化难题)。核心技术:引入可变视觉位置编码(支持更长多模态上下文)、结合有监督微调与混合偏好优化等先进后训练策略、采用测试阶段缩放方案。性能表现:全品类多模态任务树立开源模型新标杆,保留强大语言能力;InternVL3-78B在MMMU基准测试中72.2,超越现有开源多模态大语言模型,显著缩小与闭源旗舰模型的性能差距。
2025-12-21 13:29:46
785
原创 wan2.1-2.2 官方提示词改写(prompt extend)模块
这里只分析中文结构的提示词。通过对于wan2.1与wan2.2两个版本,可以发现wan2.2的提示词质量更高,能体现I2V与T2V的任务差距。在T2V任务下,wan2.2 PE提示词会要求先输入构图成分,wan2.1则只要求宽泛的信息补充,这体现了。wan2.2在I2V任务下,对于提示词要求更加规范,核心在于主体精确描述,动作细节丰富,弱化对非动态物体的描述、增强对活体的运动属性描述(使得视频的动态质量大幅度提升)。同时,,wan2.1则是最后面。
2025-12-07 16:31:00
1152
原创 论文解读:wan-s2v | audio-driven cinematic video generation
当前最先进的(SOTA)音频驱动角色动画方法在简单的语音和歌唱的场景中表现出色。然而,。为了解决这一问题,Wan-S2V被提出。与现有方法相比,Wan-S2V在电影场景中实现了显著增强的表现力和保真度。与Hunyuan-Avatar和Omnihuman等前沿模型进行了基准测试,Wan-S2V显著优于这些现有解决方案。此外,Wan-S2V还支持在长视频生成和精确视频唇同步编辑中的应用。
2025-12-06 16:14:50
1124
1
原创 wan2.1 论文精读三 | 下游应用
本博文一共介绍了wan2.1模型在图生视频(含首尾帧、视频续写)、视频编辑(VACE架构)、文生图、个性化视频(参考id生成视频,类vace架构)、摄像机运动控制、实时视频生成(世界模型)、音频生成领域的应用。关于图生视频领域,主要基于时序条件图像编码、mask控制。具体是将条件图像 I与沿时间轴填充零的帧连接起来,这些引导帧通过 Wan- VAE 压缩为条件潜在 zc,最终chanel为c;引入了一个二进制掩码 M ,其中 1 表示保留的帧,0 表示要生成的帧。最终实现基于mask 0,1标识位控
2025-11-22 21:45:35
805
原创 wan2.1 论文精读二 | 模型设计与加速
关于训练不管是VAE还是DIT都是进行了渐进式的训练,从图像到视频、从低分辨率到高分辨率;关于DIT还经过了高质量数据到后训练,这一阶段类似与LLM基模训练后的指令微调,主要是提升生成视频的视觉保真度和运动动态表现。在视频生成任务中,只有DiT模型会进行优化,而文本编码器和VAE编码器则保持冻结状态。关于性能优化训练过程中用到了全分片数据并行(FSDP)。对于激活值,通过上下文并行(CP)实现。设计了一种二维CP架构,融合了Ulysses和环形注意力的特性,类似于USP(方与赵,2024)。该设计
2025-11-02 20:40:21
1523
原创 wan2.1 论文精读一 | 导论与数据处理
基于本博文可以发现wan2.1在训练数据上分为预训练数据、后训练数据、caption模型训练数据。预训练数据。预训练数据 秉持三大核心原则:确保数据质量、保持多样性、大规模。先进行了基本维度的低质量(文本、美学、NSFW、水印、黑边、过曝、模糊、模糊、AI数据滤除)过滤。然后对数据进行聚类,进行类别的平衡。最后进行运动质量的分类,筛选出自然、完整且具有显著动态的视频,同时避免静态或抖动的运动。同时为了保证模型对于文字的生成能力,额外引入了文本数据集。后训练数据 核心目标是通过高质量数据提升生成视频
2025-11-01 17:51:19
1224
1
原创 从大模型中的chat_template了解jinja模板语法
基于macro 与 endmacro 闭合函数定义域;render_content为函数名。
2025-11-01 13:23:30
468
原创 论文阅读:Wan-Animate: UNIFIED CHARACTER ANIMATION AND REPLACEMENT WITH HOLISTIC REPLICATION
根据实际应用需求,我们通常采用1帧或5帧作为时间引导,分别对应1或5帧内容。完成各段落的去噪处理后,我们会删除对应参考latent和时间引导latent的部分,最终将剩余生成内容拼接成完整的长视频。
2025-10-26 23:00:45
922
原创 论文阅读:Res-Tuning: A Flexible and Efficient Tuning Paradigm via Unbinding Tuner from Backbone
1、Res-Tuning和Res-Tuning-Bypass在五组FGVC数据集上的少样本学习中【4.4节】,相较于其他参数高效和内存高效的调参策略均展现出显著优势。当训练样本较少时,Res-Tuning-Bypass在单样本或双样本场景下的表现与非内存高效方法相当甚至更优。2、Res-Tuning在领域偏移下展现出优异的鲁棒性【4.4节】。源域选用ImageNet-1K[11],目标域则涵盖ImageNet的四个变体:ImageNet-V2[62]、ImageNet-Sketch[73]、ImageNe
2025-10-19 22:16:00
650
1
原创 开源项目分析:wan2.1 VACE 关键设计与实现代码解读
VACE是阿里团队基于wan2.1设计的统一视频编辑模型,与wan2.1的文生视频、图生视频能力相比,VACE统一了多种视频编辑与生成软件的设计,将重绘、编辑、可控生成、帧参考生成和基于ID的视频合成等能力整合到一个统一的逻辑,称为视频条件单元,通过利用上下文适配器结构,使用时间维度和空间维度的正式表示将不同的任务概念注入到模型。如下图展示的能力有,参考图生视频、视频(pose、depth、gary、运动)生视频、mask编辑视频(物体替换、物体移除、视频扩展、视频时序延长);还可以实现组合任务如下图的
2025-10-18 20:34:12
865
原创 pytorch 52 基于SVD从全量训练模型中提取lora模型
基于微调后的模型得出增量矩阵,进行svd分解后可以得到Lora模型。本文以从wan1.3b t2v self_forcing_dmd模型中提取lora模型为例,可以用于wan t2v 1.3b、wan i2v 1.3b的推理加速。
2025-10-03 15:26:59
213
原创 DCM项目wan 1.3b T2V模型comfyui改造流程尝试
本文主要时真的DCM模型推理时,将sem模型与det模型通过lora参数的lora来进行区分,故尝试将其分开为2个模型。并尝试将其改造为标准WanVideo_comfy kj wan模型权重。最后搭建工作流实现模型推理,推理效果低于预期,应该是Scheduler没有能迁移到WanVideo_comfy 中。
2025-09-21 00:01:30
918
原创 论文阅读:DMD | Improved Distribution Matching Distillation for Fast Image Synthesis
发表时间:2024年5月24日分布匹配蒸馏(DMD)生成的一步生成器能够与教师模型在分布上保持一致,即。然而,。这些。这不仅在大规模文本到图像合成中计算成本高昂,还限制了学生模型的质量,使其与教师模型的原始采样路径过于紧密绑定。DMD2:在ImageNet-64×64数据集上FID分数达到1.28,在零样本COCO 2014数据集上FID分数为8.35。推理成本降低了500%×,超越了原始教师模型。
2025-09-07 21:53:03
1372
原创 论文翻译:VSA | Faster Video Diffusion with Trainable Sparse Attention
项目地址:https://github.com/hao-ai-lab/FastVideo模型地址:https://huggingface.co/FastVideo/FastWan2.1-T2V-1.3B-Diffusers/tree/main发表时间:2025.8.4 (v4版本)DiTs的扩展能力受限于其二次3D注意力机制,尽管大部分注意力权重集中在少量位置子集上。我们将这一发现转化为VSA,一种可训练且硬件高效的稀疏注意力机制,在训练和推理阶段均可替代全注意力机制。
2025-08-31 23:44:56
943
原创 论文阅读:VACE: All-in-One Video Creation and Editing
论文地址:https://arxiv.org/pdf/2503.07598开源时间:2025年3月11日代码地址:https://github.com/ali-vilab/VACE项目地址:https://ali-vilab.github.io/VACE-Page/DIT在生成高质量图像和视频方面展示了强大的能力和可扩展性。进一步追求生成和编辑任务的统一,在图像内容创建领域取得了显著进展。然而,由于在时间和空间动态上保持一致性的内在需求,实现视频合成的统一方法仍然具有挑战性。
2025-08-24 23:03:06
1125
原创 Wan2.1 模型文生视频、图生视频、首尾帧生视频推理代码分析
在文生视频模型中,一共有text_encoder(文本embed)、vae(图像编解码)、model(dit模型,扩散模型)三个类,与文生视频模型对比,图生视频仅仅是多了一个CLIPModel与文生视频模型对比,图生视频仅仅是多了一个CLIPModel。与图生视频的结构是一样的。
2025-08-18 04:00:00
2104
原创 论文项目:DCM代码阅读 | Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
本文(Dual-Expert Consistency Model, DCM):其中。DCM 在的同时,仍能,验证了双专家机制在视频扩散模型蒸馏中的有效性。
2025-08-17 16:56:08
1179
原创 基于comfyui实现 视频人物姿态检测与对齐
节点库3下载:https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite。节点库2下载:https://github.com/kijai/ComfyUI-WanVideoWrapper。节点库1下载:https://github.com/kijai/ComfyUI-KJNodes。链接:https://pan.quark.cn/s/03d67a07ce20。链接:https://pan.quark.cn/s/03d67a07ce20。
2025-08-17 05:00:00
362
原创 基于ComfyUI-Video-Matting实现视频人像抠图
下载插件源码,解压到 custom_nodes 目录下同样,下载VideoHelperSuite插件,解压到 custom_nodes 目录下然后,基于以下命令启动comfyui并在浏览器打开这里主要是定义NODE_CLASS_MAPPINGS、NODE_DISPLAY_NAME_MAPPINGS 两个变量,将自定义的RobustVideoMatting、BriaaiRembg节点注册到comfyui中RobustVideoMatting 节点定义代码如下""""""return {
2025-08-17 03:15:00
566
原创 基于RobustVideoMatting(RVM)进行视频人像分割(torch、onnx版本)
这里需要下载项目源码与模型,注意是引入model目录下的模型定义。
2025-08-16 00:09:17
1244
原创 开源项目:OpenDMD项目关键代码解读,了解DMD的实现过程
最后,将优化目标设置为:latents - (pred_fake_latents - pred_real_latents) / weighting_factor,梯度为(pred_fake_latents - pred_real_latents) / weighting_factor。在setup_model.py中的setup_model函数中, real_model, fake_model, student_model三个模型拥有相同的参数与模型结构。同时,在reg_loss_weight>0时,
2025-08-07 08:01:29
1250
原创 论文阅读:DMD蒸馏 | One-step Diffusion with Distribution Matching Distillation
DMD的目的是训练一个单步生成器Gθ,但不包含时间条件,将随机噪声z映射为一张逼真的图像。其通过最小化两个损失的和来训练快速生成器:一个是分布匹配损失,其梯度更新可以表示为两个得分函数的差值;另一个是回归损失,它鼓励生成器在固定的噪声-图像对数据集上匹配基础模型输出的大尺度结构。
2025-08-03 23:43:26
1899
1
原创 python工具方法51 视频数据的扩充(翻转、resize、crop、re_fps)
视频数据的扩充(翻转、resize、crop、re_fps),可以基于opencv、ffmpeg、moviepy等库进行实现。本博文对比三个视频处理库的效率,发现在速度上opencv>ffmpeg>moviepy;在压缩率上,ffmpeg≈moviepy>opnecv。同时,在具体操作的耗时上,以opencv处理为准,处理3分钟fps为30的的720p视频,处理耗时上,翻转(20s)> re_fps(10s) > resize(8.5s) > crop(7.6s) .
2025-08-03 14:25:17
374
原创 论文阅读:Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
论文地址:https://arxiv.org/pdf/2506.08009发表时间:2025年6月9日我们提出了一种用于自回归视频扩散模型的新型训练范式——自强制(Self Forcing)。该方法解决了长期存在的“暴露偏差”问题:在进行学习,但在。与以往那些基于真实上下文帧对未来帧进行去噪的方法不同,自强制通过。这一策略使得我们能够通过视频层面的整体损失进行监督,从而直接评估整个生成序列的质量,而不仅仅依赖传统的逐帧目标函数。
2025-07-31 07:32:44
1938
原创 基于mnn架构在本地 c++运行llm与mllm模型
MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和内存优化技术,能适应不同设备的算力和内存限制。
2025-07-27 22:07:04
1449
原创 开源项目分析:EDoRA | 了解如何基于peft实现EDoRA方法
论文地址:EDoRA是2025年新出的lora变种技术,在论文中分享了一种比lora精度高且显存占用低的方法。该方法目前还没有被peft库收录,为此对方法实现进行源码探索。以便于在其他项目中引入EDoRA技术。
2025-06-21 22:01:37
905
原创 最具备尝试价值的lora方法(10种LoRA模型的优劣对比)
分享了各种lora变种方法的大概情况,本文通过对LoRA、Delta-LoRA、VeRA、LoRA-drop、LoRA+、EDoRA等论文效果进行分类汇总,发现各种方法均在一定程度上表明效果比原始lora好,但在其他同类论文效果中又被证伪。这里针对提升lora精度与降低lora显存需求进行探索,基于各论文的数据,一共形成以下3点结论:1、在大幅度降低显存需求,且要保证精度(可能精度还能提升),可以尝试EDoRA方法(rank尽可能设置大一点);
2025-06-20 22:21:45
1276
原创 一文了解21年起2025的10种LoRA相关算法(LoRA、Delta-LoRA、VeRA、LoRA-drop、LoRA+、EDoRA)
在原有的参数旁,新增一个低秩分解的通路A、B,其中秩为r(r远小于n1、n2)。矩阵A进行高斯分布初始化,矩阵B进行全0初始化。额外有一个参数a,用于控制初始化参数的缩放。∆WxBA∆W_x=BA∆WxBA按α/r进行缩放,其中α是关于r的常数。在使用Adam优化器时,如果我们对初始化进行了适当缩放,调整α大致等同于调整学习率。该方法在每层LoRA结构中冻结降维投影权重A,仅更新升维投影权重B。这一设计确保模型权重变化始终处于低秩空间,同时消除了存储全秩输入激活值的必要性。
2025-06-16 23:33:08
1601
原创 开源项目:optimum-quanto库介绍
项目地址:https://github.com/huggingface/optimum-quanto官网介绍:https://huggingface.co/blog/quanto-introduction量化是一种技术,通过使用低精度数据类型(如 8 位整数 (int8))而不是通常的 32 位浮点 (float32) 来表示深度学习模型的权重和激活,从而降低评估深度学习模型的计算和内存成本。减少位数意味着生成的模型需要更少的内存存储,这对于在消费类设备上部署大型语言模型至关重要。
2025-05-04 19:45:05
1287
原创 python 工具方法50 高效的将onnxruntime推理代码修改为tensorrt推理代码
onnxruntime推理时可以直接以numpy数组为输入,可以便捷的支持多输入多输出模型。但需要修改为python-tensorrt推理时,需要补充上cuda操作,完成cpu变量与cuda变量的通信、输出输出的内存分配。为此对python-tensorrt推理代码进行共性化提取,让您可以像python-onnxruntime一样使用tensorrt推理,仅需替换2行代码即可(模型初始化代码,onnx.run调用代码)。前置条件:安装py-cuda库、tensorrt-python 10.x推理环境。
2025-04-19 21:12:02
200
原创 pytorch 51 GroundingDINO模型导出tensorrt并使用c++进行部署,53ms一张图
博主基于https://github.com/hpc203/GroundingDINO-onnxrun项目分享的onnx c++推理代码,修改为GroundingDINO模型的tensorrt推理代码。对于600x400的输入,在3060显卡下,cuda 12.1,TensorRT-10.4.0,window环境下53ms处理完一张图片。
2025-04-19 20:42:08
954
原创 基于deepspeed 官网api梳理出模型并行的调用案例
deepspeed 是一个实现模型并行的开源框架,但网上很难搜索到基于ds实现训练自己模型的代码。为此对deepspeed 官网api与豆包模型进行拷打,整理出可用的demo。。 ZeRO-1:减少优化器状态的内存占用。ZeRO-2:进一步减少梯度的内存占用。ZeRO-3:完全消除冗余,将模型参数也进行分区,显著减少内存占用,但通信开销增加。
2025-04-14 04:15:00
6095
原创 深度学习中多机训练概念下的DP与DDP
`DDP模式下对batchnorm的训练有影响,因为DDP模式下每个卡拿到的都是局部数据,故需要将batchnorm替换为syncbatchnorm,在bn层的forward前需要将全局多机所有显卡计算出的均值方差数据进行同步。`这里需要注意的是,`DP/DDP可以基于数据划分的模式提升batchsize,达到单机单卡下梯度累积训练的效果,但解决不了显存不够用的情况(单机下batch为1无法训练的模型,DDP模式下也无法训练)`。
2025-04-13 22:38:13
1370
原创 开源项目介绍:GroundingDINO-TensorRT-and-ONNX-Inference
开源时间:2024.11.x项目分享将GroundingDINO中模型导出onnx后python推理、onnx转trt模型、trt模型python推理代码。这里导出的模型与hpc203/GroundingDINO-onnxrun 导出的onnx模型是完全通用的。基于这里提供的trt模型python推理代码,可以实习c++ 下tensorrt推理GroundingDINO模型。
2025-04-13 22:14:55
1726
5
原创 深度学习中模型量化那些事
在深度学习中模型量化可以分为3块知识点,数据类型、常规模型量化与大模型量化。本文主要是对这3块知识点进行浅要的介绍。其中数据类型是模型量化的基本点。常规模型量化是指对普通小模型的量化实现,通常止步于int8的量化,绝大部分推理引擎都支持该能力。而大模型的量化,需要再cuda层次进行能力的扩展,需要特殊的框架支持。
2025-04-06 21:51:58
1652
5
opencv4.5.3+opencv-contrib+CUDA
2022-02-18
基于c#实现的webapi调用软件
2022-09-01
Wood Species Dataset-all.zip
2020-07-15
EditThisCookie.crx cookie编辑导入导出利器
2022-06-29
win10下用vs2019编译好的curl 64位库 版本7.84.0
2022-06-28
python释放cuda缓存库
2022-06-21
windows下GDAL322的库
2022-06-10
paddle.hub迁移学习-图像分类案例
2022-02-25
基于paddle2实现对paddlehub中的静态图的训练
2022-02-28
cryptoJs加密解密工具
2018-07-20
手写数字字母数据集[0-9,a-z,A-Z]
2019-04-10
labelme-4.5.7.exe
2021-03-25
目标检测 数据扩充增强工具
2021-06-15
keras库文件,在loss和metrics库文件中添加rmse方法
2020-08-20
图像批处理方法-图像空白裁剪、灰度化、缩放
2020-10-04
python工具方法 HristoryAvery
2020-10-04
flash-attn-2.6.3-cp38-cp38-win-amd64.whl
2024-10-03
自己训练的superpoint与superglue模型
2024-04-12
使用FastDeploy 进行(图像分类、目标检测、语义分割、文本检测-orc)python部署
2024-01-25
AOT-GAN-for-Inpainting项目中pt模型转化的onnx模型
2024-01-13
paddle-infer模型(包含ppyoloe-m、resnet50、segformerb1)
2023-12-26
win10上cuda12.1+tensorrt8.6+vs2019环境下编译onnxruntime1.17
2023-12-25
使用ROPNet项目在modelnet40数据集上训练的模型
2023-12-03
16位tif影像转jpg软件(win10可用,无任何依赖)
2023-07-07
基于pyqt5所实现的16U tiff影像转8U影像软件源码
2023-07-07
pyqt5的基本使用demo
2023-07-06
ARM架构下ubuntu18.04编译好的opencv3.4.15(开箱即用)
2023-07-02
基于c++实现的文件加密解密代码
2023-04-08
C++下web框架corw的完全使用手册(实现中文支持)
2023-02-20
win10下vs2019编译的opencv470+opencv-contrib(python pyd文件、c++包和编译缓存)
2022-12-31
基于vs2019实现的绘图软件(矩形、多边形绘制)
2022-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅