论文讲解
文章平均质量分 92
Keep_Trying_Go
无
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于多模态的人群统计算法详解Multi-modal Crowd Counting via a Broker Modality
本文提出了一种基于代理模态的跨模态人群计数方法,旨在解决RGB和热成像图像间的模态差异与空间未对齐问题。方法核心是设计轻量级代理模态生成器(BMG),通过两阶段训练策略:先通过知识蒸馏从扩散模型中学习高质量图像融合能力,再通过计数任务微调缓解重影效应。实验表明,该方法有效减轻了重影现象,提高了计数精度。论文和代码已公开,为跨模态人群计数提供了新思路。原创 2026-04-17 20:06:11 · 421 阅读 · 0 评论 -
基于单域泛化的目标统计算法URM详解(Single Domain Generalization for Few-Shot Countingvia Universal Representation )
本文提出了一种面向单域泛化的少样本计数模型URM,通过融合大规模预训练视觉-语言模型的通用表示来解决现有方法面临的领域偏移问题。URM采用MaskCLIP提取通用视觉表示,利用语言模型生成多样化提示获取通用语言嵌入,并通过双向注意力机制实现统一表示匹配。实验表明,该方法在应对领域偏移时表现出显著鲁棒性,同时保持域内性能。相比传统"提取-匹配"范式,URM通过引入视觉-语言预训练知识,有效克服了原型泛化能力不足的问题,为少样本计数领域的单域泛化问题提供了创新解决方案。原创 2026-04-08 17:02:29 · 384 阅读 · 0 评论 -
StyleGAN-T文生图算法详解(Unlocking the Power of GANs forFast Large-Scale Text-to-Image Synthe)
本文系统研究了基于GAN的文本生成图像技术,重点解析了StyleGAN-T模型的创新设计。该模型通过改进生成器架构(引入残差卷积和二阶样式机制)、优化判别器(采用DINO-ViT特征网络和多头架构)以及平衡文本对齐,显著提升了生成质量和速度。实验表明,StyleGAN-T在FID和CLIP分数上提升约40%,训练效率提高1.5倍,在快速文本生成图像任务中达到SOTA水平。研究还对比了StackGAN、AttnGAN等经典模型的技术特点,为文本生成图像领域提供了全面的技术参考。原创 2026-04-01 14:14:01 · 347 阅读 · 0 评论 -
基于扩散模型(diffusion Model)的人群计数方法(CrowdDiff)
本文提出CrowdDiff,首个基于扩散模型的人群计数方法。通过将密度图生成建模为去噪扩散过程,该方法克服了传统密度图方法的背景噪声积累、密度损失和分布失真问题。与依赖宽高斯核或后处理的现有方法不同,CrowdDiff采用较窄高斯核简化学习,并创新性地融合多个密度图结果提升性能。实验验证了该方法在综合性能和消融研究中的优势,为人群计数领域提供了新的解决方案。原创 2026-03-24 19:26:56 · 383 阅读 · 0 评论 -
基于GAN的文生图算法详解(Text to Image Generation with Semantic-Spatial Aware GAN)
本文系统研究了文本到图像生成模型的关键技术与改进方向。针对现有方法的局限性,包括条件批归一化的空间感知不足、文本编码器固定训练的限制、文本-图像融合机制不够深入等问题,提出了一种端到端的可训练框架。创新性地设计了语义-空间感知卷积网络(SSACN),包含弱监督掩码预测器、语义-空间条件批归一化和残差块结构,实现文本信息的精准空间注入。采用单阶段生成架构避免了多阶段模型的缺陷,并结合DAMSM损失提升生成质量。实验验证了该方法在图像质量和文本-图像一致性方面的优势。原创 2026-03-15 16:10:10 · 519 阅读 · 0 评论 -
基于diffusion扩散模型的数据增强目标统计算法详解(Diffusion-based Data Augmentation for Object Counting Problems)
本文提出了一种基于预训练Stable Diffusion模型和ControlNet架构的零样本人群计数方法,解决了现有深度学习方法在数据依赖性和泛化能力上的局限性。通过将密度图作为条件输入,实现了精确的人群图像生成与位置标注对应。实验表明,该方法能有效生成高质量密集人群图像,并通过统计引导的采样策略提升计数准确性。相比传统数据增强技术,该方法在控制人群分布、生成质量和计数一致性方面具有显著优势,为减少标注成本、提高模型泛化能力提供了新思路。原创 2026-03-03 09:26:42 · 1060 阅读 · 0 评论 -
基于多模态的人群计数方法(Free Lunch Enhancements for Multi-modal Crowd Counting)
摘要:本文提出了一种无需额外数据的"免费增强"训练策略,用于改进多模态人群计数任务。该方法包含两个核心模块:1) 后预训练跨模态对齐(PPCA)模块,通过无监督对比学习对齐不同模态特征;2) 区域密度监督(RDS)机制,在微调阶段引入区域密度注释来增强空间相关性理解。实验表明,该方法能有效解决现有方法在模态对齐和空间相关性方面的不足,且不增加额外计算开销。整体框架兼容现有计数方法,在保持效率的同时提升了跨模态理解和密度估计性能。原创 2026-02-10 09:26:11 · 930 阅读 · 0 评论 -
SD-GAN文生图算法详解(Semantics Disentangling for Text-to-Image Generation)
本文综述了文本到图像生成领域的主要方法,重点分析了现有模型(如StackGAN、AttnGAN等)在语义一致性、细节控制和视觉-语义嵌入方面的局限性。针对这些问题,提出了一种基于Siamese结构和对比损失的SD-GAN模型,通过双分支架构提炼语义共性,并结合语义条件批归一化(SCBN)实现细粒度控制。实验表明,该方法能有效平衡生成图像的语义一致性与多样性,在视觉质量和语义对齐方面优于传统方法。文章详细介绍了模型架构、对比损失机制和SCBN模块的实现方式,并通过消融实验验证了各组件的作用。原创 2026-02-07 15:17:40 · 905 阅读 · 0 评论 -
基于GAN的文生图算法详解ControlGAN(Controllable Text-to-Image Generation)
本文综述了多项文本生成图像(Text-to-Image)的GAN模型研究,重点分析了现有方法在生成可控性和细粒度控制方面的局限性。针对StackGAN++、AttnGAN等模型存在的生成不可控、属性耦合等问题,提出了一种改进方案:通过引入通道注意力机制和词级判别器,增强语义部位聚焦能力;采用感知损失减少随机性,保持未修改内容的一致性。实验表明,该方法能实现更精准的文本-图像对齐,在修改特定属性时保持其他视觉内容稳定。研究为提升文生图模型的可控性和生成质量提供了新思路。原创 2026-01-30 10:28:47 · 821 阅读 · 0 评论 -
基于GAN的文生图(DM-GAN:Dynamic MemoryGenerative Adversarial Networks for Text-to-Image Synthesis)
本文系统分析了文本生成图像(Text-to-Image)领域的关键技术,重点探讨了StackGAN、AttnGAN、DM-GAN等代表性模型的架构特点与局限。研究发现现有方法存在初始图像质量依赖性强、文本表示静态性、多主体布局不合理等核心问题。提出的DM-GAN通过动态记忆模块、门控记忆写入和响应机制,实现了文本特征的动态检索与融合,在CUB和COCO数据集上显著提升了IS、FID等指标。实验验证了该方法能有效缓解初始图像质量依赖问题,并通过注意力机制的可视化展示了模型对关键文本信息的聚焦能力。原创 2026-01-22 10:26:17 · 707 阅读 · 0 评论 -
基于Transformer端到端的人群定位(An End-to-End Transformer Model for Crowd Localization)
本文提出CLTR框架,重新思考人群计数与定位问题。现有方法存在三方面局限:检测基方法依赖伪边界框且非端到端;密度图方法计算成本高且后处理复杂;回归基方法匹配模糊。CLTR创新性地采用纯点基方法:1)端到端集合预测框架,直接回归点坐标;2)引入KMO-based匈牙利匹配器,利用KNN上下文信息解决密集场景匹配模糊;3)仅需轻量级单尺度特征图,降低计算成本。实验表明该方法在保持精度的同时简化流程,实现真正端到端训练。原创 2026-01-16 11:54:35 · 760 阅读 · 0 评论 -
Muse文生图算法详解(Muse: Text-To-Image Generation via Masked Generative Transformers)
本文系统综述了文本到图像生成领域的最新研究进展,重点分析了现有方法的局限性并提出创新解决方案。研究指出当前扩散模型和自回归模型存在计算效率低下、生成质量与速度难以平衡、编辑功能有限等核心问题。针对这些问题,本文提出的Muse框架通过掩码生成变换器实现非自回归并行解码,仅需24步即可生成256×256图像,速度提升10倍以上。该模型在CC3M数据集上达到FID 6.06的SOTA成绩,零样本编辑能力显著优于现有方法。关键技术包括:1) 预训练T5文本编码器提取语义嵌入;2) VQGAN语义标记化实现高效图像表原创 2026-01-12 14:05:50 · 747 阅读 · 0 评论 -
Improved Denoising Diffusion Probabilistic Models论文解读
本文提出了一种改进的Denoising Diffusion Probabilistic Model (Improved DDPM),通过多项创新技术解决了原始DDPM在模型性能、采样效率和评估方法等方面的问题。主要改进包括:1)学习反向过程的方差,通过参数化方差和混合目标函数优化均值和方差;2)采用余弦噪声调度替代线性调度;3)通过重要性采样减少梯度噪声;4)实现加速采样,在保持质量的同时显著减少推理步数。实验表明,改进后的模型在图像生成质量、对数似然指标和模式覆盖能力方面均有显著提升,同时展现出良好的可扩原创 2026-01-10 13:04:04 · 701 阅读 · 0 评论 -
LOCA类别无关的目标统计算法详解(A Low-Shot Object Counting Network With Iterative Prototype Adaptation)
本文提出了一种低样本目标计数网络LOCA,通过迭代原型自适应方法解决现有计数算法忽略形状信息导致定位不准的问题。针对现有方法(如GMN、FamNet)通过特征池化丢失物体尺寸/长宽比信息、原型泛化能力有限等缺陷,LOCA创新性地分离处理示例的形状和外观信息。网络采用ResNet-50骨干提取特征,通过目标原型提取模块显式编码形状信息,再经深度互相关匹配生成响应图,最终回归为密度图实现计数。实验表明该方法在保持简洁架构的同时,有效提升了高密度场景和尺寸变化情况下的计数精度。论文代码已开源,为类别无关的统计算法原创 2026-01-07 15:08:17 · 780 阅读 · 0 评论 -
基于无监督backbone无需训练的类别无关目标统计CountingDINO算法详解
摘要:论文提出了一种基于自监督学习的零样本目标计数方法,通过DINO特征提取器和创新相似度图机制实现无需人工标注的开放世界计数。该方法解决了现有类别无关计数(CAC)方法对标注数据的依赖问题,采用ROI-Align提取示例特征,通过卷积生成相似度图并归一化为密度图。通过图像分块处理增强空间分辨率,实验验证了方法的有效性。相关代码已开源,论文可访问arXiv获取。原创 2026-01-04 10:06:03 · 1176 阅读 · 0 评论 -
文生图算法C4Synth: Cross-Caption Cycle-Consistent Text-to-Image Synthesis详解
本文综述了多篇文本生成图像(Text-to-Image)领域的代表性论文,包括GALIP、DF-GAN、StackGAN系列、AttnGAN、MirrorGAN等。重点分析了现有方法的三方面局限性:单描述信息不足、语义鸿沟问题和生成质量受限。针对这些问题,提出了两种改进架构:级联C4Synth采用串行生成器-判别器对逐步优化图像;循环C4Synth通过权重共享和隐状态记忆实现更灵活的多描述融合。两种方法都利用跨文本描述循环一致性来提升生成质量,其中级联模型固定阶段数,而循环模型支持动态描述输入。实验验证了这原创 2025-12-29 19:42:56 · 1030 阅读 · 0 评论 -
MaskGIT掩码生成图算法详解(MaskGIT: Masked Generative Image Transformer)
本文提出了一种基于双向Transformer和掩码预测的高效文本到图像生成方法。通过掩码视觉token建模(MVTM)训练双向注意力模型,并采用迭代并行解码策略,解决了传统自回归Transformer生成效率低的问题。创新性地设计了余弦掩码调度函数和置信度筛选机制,仅需8-12步即可生成高质量图像,比自回归方法加速64倍。实验表明,该方法在ImageNet 256×256上FID降至6.18,IS提升至182.1。同时展示了该方法在图像编辑任务中的扩展性,无需修改架构即可实现类条件编辑、图像修复等任务。原创 2025-12-28 14:25:05 · 1128 阅读 · 0 评论 -
Class-Agnostic Counting类别无关的统计算法讲解
本文提出了一种基于通用匹配的类别无关计数方法GMN,通过将计数重构为图像块匹配问题,利用图像自相似性实现跨类别计数。方法采用三模块架构:嵌入模块提取特征、匹配模块计算相似度热力图、适配模块实现少样本微调。创新性地利用视频数据学习跨帧变化,并通过残差适配器仅训练3%参数实现领域适应。实验表明该方法能处理复杂场景变化,显著降低数据需求和计算成本,在多种计数任务中优于传统方法。原创 2025-12-24 13:02:28 · 984 阅读 · 0 评论 -
类别无关目标统计计数—(Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic Counting)
本文介绍了一种基于Zero-Shot的计数算法框架,针对现有方法在相似性度量和特征表示方面的局限性进行改进。现有方法主要采用固定的相似性度量,难以处理类内变化和背景噪声。提出的BMNet框架引入可学习的双线性相似性度量,通过自相似性模块增强特征鲁棒性,并采用动态相似性度量和直接监督策略。BMNet+进一步优化表示、比较和学习三个层面,利用自注意力机制聚合信息,引入通道注意力动态聚焦关键特征,并通过相似性损失直接约束相似度图。实验验证了该方法在计数精度上的优势。原创 2025-12-20 22:20:44 · 775 阅读 · 0 评论 -
基于zero-shot目标统计算法详解(Zero-shot Object Counting with Good Exemplars)
本文提出了一种改进的零样本目标计数框架VA-Count,通过示例增强模块(EEM)和噪声抑制模块(NSM)解决现有方法的局限性。EEM整合视觉-语言预训练模型,采用负样本过滤和单对象示例选择机制;NSM通过对比学习策略区分最优和次优示例。实验表明,该方法能有效提升跨类别可扩展性,减少背景噪声干扰,在复杂场景下实现更准确的计数。论文和代码已开源,为相关研究提供了新思路。原创 2025-12-18 09:46:37 · 766 阅读 · 0 评论 -
开放词汇的目标计数COUNTGD:Multi-Modal Open-World Counting算法详解
本文提出了一种新型多模态零样本目标计数框架,通过三重提示(文本/视觉/混合)解决现有方法提示方式单一的问题。创新性地采用基于Grounding DINO的增强架构,结合自注意力、交叉注意力和层注意力机制实现深度特征融合。实验表明,该方法在灵活性和准确性上均优于传统视觉示例或纯文本方法,特别是通过动态查询机制实现了输入内容自适应的区域关注。研究有效克服了现有技术在提示方式、架构设计和特征融合等方面的局限性,为零样本目标计数提供了更通用的解决方案。原创 2025-12-13 13:51:01 · 851 阅读 · 0 评论 -
算法VLCount详解(VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting)
本文提出了一种端到端的零样本目标计数框架VLCounter,通过改进CLIP模型解决现有两阶段方法的局限性。核心创新包括:1)语义条件提示调优(SPT)将文本语义融入视觉提示,增强类别关注;2)可学习仿射变换(LAT)优化相似度图为计数任务;3)分段感知跳跃连接(SaSC)传递多层级语义信息。实验表明该方法在FSC147等数据集上优于传统方法,实现了无需示例块的直接计数。论文代码已开源,为跨模态理解在计数任务中的应用提供了新思路。原创 2025-12-08 13:49:02 · 1008 阅读 · 0 评论 -
基于Transformer的目标统计方法(CounTR: Transformer-based Generalised Visual Counting)
本文提出基于Transformer的广义视觉计数框架CounTR,突破传统方法在类别特定和泛化能力上的局限。创新点包括:1)基于ViT的架构设计,通过注意力机制显式捕获图像块相似性;2)两阶段训练策略,结合自监督预训练和监督微调;3)可扩展MOS数据增强技术,缓解数据长尾分布问题;4)测试时优化策略,包括归一化校准和滑动窗口预测。该方法在零样本设置下展现出优越性能,为跨模态计数任务提供了新思路。相关代码和论文已开源。原创 2025-12-06 14:04:53 · 1020 阅读 · 0 评论 -
基于Zero-Shot的计数算法详解(T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting)
本文提出T2ICount框架,通过结合扩散模型与HSCM、L_RRC模块,有效解决了零样本计数中的文本敏感性问题。研究构建了FSC-147-S基准,为文本引导计数提供了更严格的评估标准。实验表明,该方法在现有基准和新挑战任务上均达到领先水平,为相关研究提供了新思路。论文和代码已开源。原创 2025-12-04 10:58:26 · 923 阅读 · 0 评论 -
Teaching CLIP to Count to Ten论文详解
本文提出改进的零样本目标计数方法,针对现有视觉-语言模型在数量理解方面的不足进行优化。主要创新包括:1)设计CountPlus多元对比损失函数;2)提出三种动态λ平衡机制(λ_norm、λ_modal、λ_log)解决类别不平衡问题;3)开发高效的小数据集训练策略,仅需2000张图像(比原方法少640倍)。实验表明,该方法在有限计算资源下显著提升计数性能,并公开了相关代码和数据集。研究解决了计数感知表示不足、资源需求大和类别不平衡等关键问题。原创 2025-12-03 15:23:49 · 1001 阅读 · 0 评论 -
基于Zero-Shot的目标计数算法详解(Open-world Text-specified Object Counting)
本文探讨了零样本对象计数方法的发展。现有方法存在三类局限性:类别特定方法无法处理新类别;类别无关方法依赖人工标注示例;文本指定方法采用两阶段流程效率低下。提出的CountTX框架创新性地实现了单阶段文本直接指定计数,利用CLIP模型的跨模态能力,通过图像和文本编码器的交互直接输出对象计数。该方法突破了传统方法对视觉示例的依赖,为开放世界环境下的对象计数提供了更高效的解决方案。相关论文和代码已公开,为研究者提供了实用参考。原创 2025-12-02 14:18:19 · 1078 阅读 · 0 评论 -
基于zero-shot目标计数方法详解(Zero-Shot Object Counting)
针对上述局限性,本文提出了零样本目标计数新任务,仅需类别名称即可计数特定类别的对象实例,无需任何人工标注样例。如图1所示,ZSC使计数系统能够完全自主运行,用户只需提供类别名称即可指定计数目标。原创 2025-12-01 10:31:45 · 876 阅读 · 0 评论 -
论文Leveraging Unlabeled Data for Crowd Counting by Learning to Rank算法详解
本文提出一种基于排序的自监督人群计数方法CrowdCLIP,旨在解决标注数据稀缺问题。通过互联网自动收集无标签人群图像,并设计多任务网络联合学习计数(密度图回归)和排序(人数比较)任务。创新性地提出三种训练策略,其中多任务联合训练效果最佳。该方法无需人工标注即可构建大规模排序数据集,显著提升模型性能。实验验证了多尺度采样和排序数据对性能的重要性,为无监督人群计数提供了新思路。原创 2025-11-21 16:57:15 · 141 阅读 · 0 评论 -
论文STEERER人群计数,车辆计数以及农作物计数算法详解(pytorch)
本文提出STEERER模型,通过选择性继承学习实现多尺度特征融合。模型采用FSIA算法从低到高分辨率融合特征,并使用CAM方法显示各尺度特征区域。实验表明,该模型在车辆(TRANCOS)和玉米计数(MTC)任务中表现优异,MAE分别降低12.9%和14.0%。可视化结果显示STEERER在生成密度图和定位方面优于基线模型,尤其擅长检测大型和小而密集的物体。跨域测试证实模型具有良好可移植性,适用于车辆、树木等多种场景的定位和计数任务。原创 2025-11-15 10:44:31 · 473 阅读 · 0 评论 -
论文Rethinking Counting and Localization in Crowds: APurely Point-Based Framework算法详解(PyTorch)
摘要:本文提出P2PNet,一种基于点预测的人群计数与定位新框架。针对现有密度图方法定位模糊和检测方法依赖伪标注的缺陷,该方法直接预测个体位置点,实现精确计数定位。创新点包括:1)纯点预测框架;2)密度归一化平均精度新指标;3)双分支网络结构。实验表明,P2PNet在计数精度和定位性能上达到最优,为人群分析任务提供了更实用的解决方案。相关代码和数据集已在GitHub开源。原创 2025-11-08 19:56:53 · 1232 阅读 · 0 评论 -
论文TMTB(Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Count)详解
全监督,半监督以及无监督在人群计数中都有所研究,但是相关的研究并不太多,大部分都是基于全监督并且是基于密度图的人群统计,当然还有很多其他的研究,这里就不一一例举出来了。本文要讲的是刚刚发表出来的基于半监督来做的,作者主要是从修复增强以及引入了新的网络架构mamba在人群计数中,mamba也是我目前第一次在人群计数中使用,当然作者也不是直接拿来用,而是基于mamba的骨干网络(backbone)来进行改进的,从实验的效果来看,这篇论文得到效果再大部分数据集上的效果还是可以的。原创 2025-11-01 13:23:24 · 1013 阅读 · 0 评论 -
MiniGPT-v2论文中几个关键名词介绍(重要)
计算机视觉与自然语言处理的交叉任务包括:视觉问答(VQA)用于回答图像相关问题;图像描述(ImageCaption)生成文本描述;指代表达(ReferringExpression)解析特定区域的语言指代;带定位的图像描述(GroundedImageCaption)结合视觉定位;区域识别(RegionIdentification)定位特定区域;目标解析与定位(Object parsing and grounding)识别并定位对象;目标身份验证(object identification)确认对象身份。这些任原创 2025-09-26 16:22:42 · 1162 阅读 · 0 评论 -
分组查询注意力GQA(Grouped-query attention)算法详解
本文探讨了注意力机制的优化方法,重点介绍了分组查询注意力(GQA)的创新设计。针对多头注意力(MHA)内存开销大和多查询注意力(MQA)质量下降的不足,GQA采用键值头分组共享策略,在保持接近MHA性能的同时显著提升推理效率。研究提出两种优化方案:1)使用5%额外计算量将MHA检查点升级为MQA;2)引入GQA混合架构。实验显示GQA有效平衡效率与质量,特别适合长序列生成任务。但研究存在训练成本对比不足和架构覆盖不全面等局限性,尤其在纯解码器模型中的应用效果有待进一步验证。原创 2025-06-22 21:59:50 · 2362 阅读 · 0 评论 -
多查询注意力(Multi-Query Attention)详解
本文提出多查询注意力方法来优化Transformer模型在增量推理时的性能。针对自回归解码过程中反复加载键/值张量导致内存带宽开销大的问题,该方法让多头注意力共享键和值张量,显著减小了张量规模。实验表明,该方法能大幅提升解码速度,且仅带来轻微质量损失。文中还分析了传统点乘注意力、多头注意力及其增量版本的特性,验证了多查询注意力的有效性。原创 2025-06-18 13:30:18 · 1564 阅读 · 0 评论 -
论文Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM讲解
前面我们已经讲过了关于人群计数无监督的论文,而今天要讲的这篇论文目前是我看到的最新的无监督人群计数算法,但是呢!论文没有给代码,所以下面的讲解只能结合论文给出的理论来大致讲一下。原创 2025-05-29 12:04:54 · 900 阅读 · 0 评论 -
论文 Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation详解(PyTorch)
前面我们已经讲过了两篇论文关于人群计数的无监督算法,其中一篇是基于人群计数符合自然幂律分布,而另外一篇是基于CLIP的无监督算法,充分利用了CLIP的泛化性能。而本文要讲的是关于语义分割领域的一篇基于CLIP的无监督算法,但是这篇算法的理解不是太容易,因此需要花较多的时间去阅读和理解。原创 2025-05-27 14:15:18 · 1117 阅读 · 0 评论 -
论文 Completely Self-Supervised Crowd Counting via Distribution Matching无监督算法详解
今天讲解的这篇论文属于无监督方面的算法点,其中的算法理解不是太容易,并且涉及的算法点也比较多,所以需要花较多的时间去理解和阅读。上一次我们讲过基于CLIP的无监督人群计数CrowdCLIP算法,那篇论文算法理解起来更加容易一点,并且代码实现方面理解起来也更加容易一点,因此也希望大家可以看一下那篇论文。原创 2025-05-23 12:05:36 · 1484 阅读 · 0 评论 -
论文Chinese-CLIP(图像-中文版的Contrastive Vision-Language Pretraining in Chinese)详解(PyTorch代码)
虽然基于“图像-英文”的CLIP在很多下游任务中得到广泛的应用,但是毕竟是国外(OpenAi)公司做出来的,因此如果直接将CLIP应用到“图像-中文”上的话效果比较差,为了能更好的应用中文的图文检索其实是非常好的,针对中文训练一个Chinese-CLIP。虽然Chinese-CLIP很大程度上还是基于CLIP来做的,但是其中涉及的知识点还是应该讲一下的,具体做了什么以及源码训练以及模型是具体怎么实现的,这也很重要。了解Chinese-CLIP对于后期的应用到自己的任务具有很大的优势。原创 2025-05-17 15:06:18 · 1643 阅读 · 0 评论 -
论文Visual Prompt Tune(视觉提示微调)详解
还记得我们之前讲的“CLIP-Count(基于文本指导的零样本目标计数)”论文的内容吗,如果看过的小伙伴应该知道CLIP-Count论文的作者就使用到了“Visual Prompt Tune”方法训练模型。我们今天来看这篇论文也是因为CLIP-Count提到了这一点。如果迁移微调的模型比较大的话,是不是也可以尝试采用“visual prompt tune”呢,关于这一点大家可以去尝试一下。同样,《Visual Prompt Tune》这篇论文的作者也是认为当前基于模型的全微调对于参数量大的模型并不好,不仅原创 2025-05-15 14:40:13 · 1590 阅读 · 0 评论 -
论文VQ-VAE-2(Generating Diverse High-Fidelity Images with VQ-VAE-2)详解(PyTorch)
前面我们已经讲过了关于VQ-VAE的原始论文,其中主要是采用一种离散隐变量的自编码方法,通过向量量化(Vector Quantization, VQ) 实现隐空间的离散化,从而提升表征的可解释性和生成质量。正是VQ-VAE在大规模的模型当中得到应用,也证明了它的成功。原创 2025-05-14 15:29:20 · 1800 阅读 · 0 评论
分享