Keep_Trying_Go-CSDN博客

原创基于多模态的人群计数方法（Free Lunch Enhancements for Multi-modal Crowd Counting）

摘要：本文提出了一种无需额外数据的"免费增强"训练策略，用于改进多模态人群计数任务。该方法包含两个核心模块：1) 后预训练跨模态对齐(PPCA)模块，通过无监督对比学习对齐不同模态特征；2) 区域密度监督(RDS)机制，在微调阶段引入区域密度注释来增强空间相关性理解。实验表明，该方法能有效解决现有方法在模态对齐和空间相关性方面的不足，且不增加额外计算开销。整体框架兼容现有计数方法，在保持效率的同时提升了跨模态理解和密度估计性能。

2026-02-10 09:26:11 860

原创 SD-GAN文生图算法详解（Semantics Disentangling for Text-to-Image Generation）

本文综述了文本到图像生成领域的主要方法，重点分析了现有模型（如StackGAN、AttnGAN等）在语义一致性、细节控制和视觉-语义嵌入方面的局限性。针对这些问题，提出了一种基于Siamese结构和对比损失的SD-GAN模型，通过双分支架构提炼语义共性，并结合语义条件批归一化（SCBN）实现细粒度控制。实验表明，该方法能有效平衡生成图像的语义一致性与多样性，在视觉质量和语义对齐方面优于传统方法。文章详细介绍了模型架构、对比损失机制和SCBN模块的实现方式，并通过消融实验验证了各组件的作用。

2026-02-07 15:17:40 840

原创基于GAN的文生图算法详解ControlGAN（Controllable Text-to-Image Generation）

本文综述了多项文本生成图像（Text-to-Image）的GAN模型研究，重点分析了现有方法在生成可控性和细粒度控制方面的局限性。针对StackGAN++、AttnGAN等模型存在的生成不可控、属性耦合等问题，提出了一种改进方案：通过引入通道注意力机制和词级判别器，增强语义部位聚焦能力；采用感知损失减少随机性，保持未修改内容的一致性。实验表明，该方法能实现更精准的文本-图像对齐，在修改特定属性时保持其他视觉内容稳定。研究为提升文生图模型的可控性和生成质量提供了新思路。

2026-01-30 10:28:47 778

原创基于GAN的文生图（DM-GAN:Dynamic MemoryGenerative Adversarial Networks for Text-to-Image Synthesis）

本文系统分析了文本生成图像（Text-to-Image）领域的关键技术，重点探讨了StackGAN、AttnGAN、DM-GAN等代表性模型的架构特点与局限。研究发现现有方法存在初始图像质量依赖性强、文本表示静态性、多主体布局不合理等核心问题。提出的DM-GAN通过动态记忆模块、门控记忆写入和响应机制，实现了文本特征的动态检索与融合，在CUB和COCO数据集上显著提升了IS、FID等指标。实验验证了该方法能有效缓解初始图像质量依赖问题，并通过注意力机制的可视化展示了模型对关键文本信息的聚焦能力。

2026-01-22 10:26:17 635

原创基于Transformer端到端的人群定位（An End-to-End Transformer Model for Crowd Localization）

本文提出CLTR框架，重新思考人群计数与定位问题。现有方法存在三方面局限：检测基方法依赖伪边界框且非端到端；密度图方法计算成本高且后处理复杂；回归基方法匹配模糊。CLTR创新性地采用纯点基方法：1）端到端集合预测框架，直接回归点坐标；2）引入KMO-based匈牙利匹配器，利用KNN上下文信息解决密集场景匹配模糊；3）仅需轻量级单尺度特征图，降低计算成本。实验表明该方法在保持精度的同时简化流程，实现真正端到端训练。

2026-01-16 11:54:35 693

原创 Muse文生图算法详解（Muse: Text-To-Image Generation via Masked Generative Transformers）

本文系统综述了文本到图像生成领域的最新研究进展，重点分析了现有方法的局限性并提出创新解决方案。研究指出当前扩散模型和自回归模型存在计算效率低下、生成质量与速度难以平衡、编辑功能有限等核心问题。针对这些问题，本文提出的Muse框架通过掩码生成变换器实现非自回归并行解码，仅需24步即可生成256×256图像，速度提升10倍以上。该模型在CC3M数据集上达到FID 6.06的SOTA成绩，零样本编辑能力显著优于现有方法。关键技术包括：1) 预训练T5文本编码器提取语义嵌入；2) VQGAN语义标记化实现高效图像表

2026-01-12 14:05:50 666

原创 Improved Denoising Diffusion Probabilistic Models论文解读

本文提出了一种改进的Denoising Diffusion Probabilistic Model (Improved DDPM)，通过多项创新技术解决了原始DDPM在模型性能、采样效率和评估方法等方面的问题。主要改进包括：1）学习反向过程的方差，通过参数化方差和混合目标函数优化均值和方差；2）采用余弦噪声调度替代线性调度；3）通过重要性采样减少梯度噪声；4）实现加速采样，在保持质量的同时显著减少推理步数。实验表明，改进后的模型在图像生成质量、对数似然指标和模式覆盖能力方面均有显著提升，同时展现出良好的可扩

2026-01-10 13:04:04 589

原创 LOCA类别无关的目标统计算法详解（A Low-Shot Object Counting Network With Iterative Prototype Adaptation）

本文提出了一种低样本目标计数网络LOCA，通过迭代原型自适应方法解决现有计数算法忽略形状信息导致定位不准的问题。针对现有方法（如GMN、FamNet）通过特征池化丢失物体尺寸/长宽比信息、原型泛化能力有限等缺陷，LOCA创新性地分离处理示例的形状和外观信息。网络采用ResNet-50骨干提取特征，通过目标原型提取模块显式编码形状信息，再经深度互相关匹配生成响应图，最终回归为密度图实现计数。实验表明该方法在保持简洁架构的同时，有效提升了高密度场景和尺寸变化情况下的计数精度。论文代码已开源，为类别无关的统计算法

2026-01-07 15:08:17 723

原创 accelerate 深度学习分布式训练库的使用详细介绍（单卡/多卡分布式训练）

摘要：Accelerate是由HuggingFace开发的轻量级PyTorch分布式训练库，可简化单卡/多卡(DP/DDP)、TPU及混合精度训练流程。该库无需修改模型代码即可适配不同硬件环境，支持FP16/BF16混合精度和梯度累积。安装只需pip install accelerate，通过Accelerator()类配置训练参数（如精度模式、日志工具等）。相比传统分布式框架，Accelerate隐藏底层实现细节，开发者可专注模型逻辑。文中提供了GitHub示例链接和人群计数框架参考，展示如何快速迁移现有

2026-01-05 21:50:55 1236

原创 taming-transformers代码使用过程中的报错“packaging.version.InvalidVersion: Invalid version: ‘0.10.1,＜0.11‘pyt”

本文介绍了VQ-GAN高分辨率图像生成模型的安装与调试过程。在按照作者提供的environment.yaml文件配置环境时，发现安装CPU版本的PyTorch较为稳定，但运行sample_fast.py时会出现版本报错。虽然官方建议直接使用conda安装环境即可正常运行，但实际调试中发现transformers库的版本冲突问题。通过将transformers版本从4.3.1降级到4.2.0，最终解决了"packaging.version.InvalidVersion"错误。文中详细列出了

2026-01-04 21:27:30 281

原创基于无监督backbone无需训练的类别无关目标统计CountingDINO算法详解

摘要：论文提出了一种基于自监督学习的零样本目标计数方法，通过DINO特征提取器和创新相似度图机制实现无需人工标注的开放世界计数。该方法解决了现有类别无关计数(CAC)方法对标注数据的依赖问题，采用ROI-Align提取示例特征，通过卷积生成相似度图并归一化为密度图。通过图像分块处理增强空间分辨率，实验验证了方法的有效性。相关代码已开源，论文可访问arXiv获取。

2026-01-04 10:06:03 1104

原创文生图算法C4Synth: Cross-Caption Cycle-Consistent Text-to-Image Synthesis详解

本文综述了多篇文本生成图像（Text-to-Image）领域的代表性论文，包括GALIP、DF-GAN、StackGAN系列、AttnGAN、MirrorGAN等。重点分析了现有方法的三方面局限性：单描述信息不足、语义鸿沟问题和生成质量受限。针对这些问题，提出了两种改进架构：级联C4Synth采用串行生成器-判别器对逐步优化图像；循环C4Synth通过权重共享和隐状态记忆实现更灵活的多描述融合。两种方法都利用跨文本描述循环一致性来提升生成质量，其中级联模型固定阶段数，而循环模型支持动态描述输入。实验验证了这

2025-12-29 19:42:56 986

原创 MaskGIT掩码生成图算法详解（MaskGIT: Masked Generative Image Transformer）

本文提出了一种基于双向Transformer和掩码预测的高效文本到图像生成方法。通过掩码视觉token建模(MVTM)训练双向注意力模型，并采用迭代并行解码策略，解决了传统自回归Transformer生成效率低的问题。创新性地设计了余弦掩码调度函数和置信度筛选机制，仅需8-12步即可生成高质量图像，比自回归方法加速64倍。实验表明，该方法在ImageNet 256×256上FID降至6.18，IS提升至182.1。同时展示了该方法在图像编辑任务中的扩展性，无需修改架构即可实现类条件编辑、图像修复等任务。

2025-12-28 14:25:05 1051

原创 Class-Agnostic Counting类别无关的统计算法讲解

本文提出了一种基于通用匹配的类别无关计数方法GMN，通过将计数重构为图像块匹配问题，利用图像自相似性实现跨类别计数。方法采用三模块架构：嵌入模块提取特征、匹配模块计算相似度热力图、适配模块实现少样本微调。创新性地利用视频数据学习跨帧变化，并通过残差适配器仅训练3%参数实现领域适应。实验表明该方法能处理复杂场景变化，显著降低数据需求和计算成本，在多种计数任务中优于传统方法。

2025-12-24 13:02:28 940

原创类别无关目标统计计数—（Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic Counting）

本文介绍了一种基于Zero-Shot的计数算法框架，针对现有方法在相似性度量和特征表示方面的局限性进行改进。现有方法主要采用固定的相似性度量，难以处理类内变化和背景噪声。提出的BMNet框架引入可学习的双线性相似性度量，通过自相似性模块增强特征鲁棒性，并采用动态相似性度量和直接监督策略。BMNet+进一步优化表示、比较和学习三个层面，利用自注意力机制聚合信息，引入通道注意力动态聚焦关键特征，并通过相似性损失直接约束相似度图。实验验证了该方法在计数精度上的优势。

2025-12-20 22:20:44 703

原创基于zero-shot目标统计算法详解（Zero-shot Object Counting with Good Exemplars）

本文提出了一种改进的零样本目标计数框架VA-Count，通过示例增强模块(EEM)和噪声抑制模块(NSM)解决现有方法的局限性。EEM整合视觉-语言预训练模型，采用负样本过滤和单对象示例选择机制；NSM通过对比学习策略区分最优和次优示例。实验表明，该方法能有效提升跨类别可扩展性，减少背景噪声干扰，在复杂场景下实现更准确的计数。论文和代码已开源，为相关研究提供了新思路。

2025-12-18 09:46:37 739

原创统一的人群计数训练框架（PyTorch）——基于主流的密度图模型训练框架

本文介绍了一个开源的人群计数框架，支持一键生成密度图数据集，并内置多种常见损失函数。该框架采用模块化设计，用户无需修改核心代码即可训练模型，也可轻松集成自定义模型。项目实现了分布式训练功能，并汇总了相关论文解读和代码资源链接，包括CrowdCLIP、FFNet等前沿方法。附带的参考链接涵盖了数据集使用指南、算法详解和GitHub项目资源，为研究者提供了完整的人群计数学习路径和技术支持。

2025-12-15 09:48:25 595

原创开放词汇的目标计数COUNTGD:Multi-Modal Open-World Counting算法详解

本文提出了一种新型多模态零样本目标计数框架，通过三重提示（文本/视觉/混合）解决现有方法提示方式单一的问题。创新性地采用基于Grounding DINO的增强架构，结合自注意力、交叉注意力和层注意力机制实现深度特征融合。实验表明，该方法在灵活性和准确性上均优于传统视觉示例或纯文本方法，特别是通过动态查询机制实现了输入内容自适应的区域关注。研究有效克服了现有技术在提示方式、架构设计和特征融合等方面的局限性，为零样本目标计数提供了更通用的解决方案。

2025-12-13 13:51:01 807

原创算法VLCount详解（VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting）

本文提出了一种端到端的零样本目标计数框架VLCounter，通过改进CLIP模型解决现有两阶段方法的局限性。核心创新包括：1）语义条件提示调优(SPT)将文本语义融入视觉提示，增强类别关注；2）可学习仿射变换(LAT)优化相似度图为计数任务；3）分段感知跳跃连接(SaSC)传递多层级语义信息。实验表明该方法在FSC147等数据集上优于传统方法，实现了无需示例块的直接计数。论文代码已开源，为跨模态理解在计数任务中的应用提供了新思路。

2025-12-08 13:49:02 959

原创基于Transformer的目标统计方法（CounTR: Transformer-based Generalised Visual Counting）

本文提出基于Transformer的广义视觉计数框架CounTR，突破传统方法在类别特定和泛化能力上的局限。创新点包括：1)基于ViT的架构设计，通过注意力机制显式捕获图像块相似性；2)两阶段训练策略，结合自监督预训练和监督微调；3)可扩展MOS数据增强技术，缓解数据长尾分布问题；4)测试时优化策略，包括归一化校准和滑动窗口预测。该方法在零样本设置下展现出优越性能，为跨模态计数任务提供了新思路。相关代码和论文已开源。

2025-12-06 14:04:53 966

原创基于Zero-Shot的计数算法详解（T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting）

本文提出T2ICount框架，通过结合扩散模型与HSCM、L_RRC模块，有效解决了零样本计数中的文本敏感性问题。研究构建了FSC-147-S基准，为文本引导计数提供了更严格的评估标准。实验表明，该方法在现有基准和新挑战任务上均达到领先水平，为相关研究提供了新思路。论文和代码已开源。

2025-12-04 10:58:26 868

原创 Teaching CLIP to Count to Ten论文详解

本文提出改进的零样本目标计数方法，针对现有视觉-语言模型在数量理解方面的不足进行优化。主要创新包括：1）设计CountPlus多元对比损失函数；2）提出三种动态λ平衡机制（λ_norm、λ_modal、λ_log）解决类别不平衡问题；3）开发高效的小数据集训练策略，仅需2000张图像（比原方法少640倍）。实验表明，该方法在有限计算资源下显著提升计数性能，并公开了相关代码和数据集。研究解决了计数感知表示不足、资源需求大和类别不平衡等关键问题。

2025-12-03 15:23:49 943

原创基于Zero-Shot的目标计数算法详解（Open-world Text-specified Object Counting）

本文探讨了零样本对象计数方法的发展。现有方法存在三类局限性：类别特定方法无法处理新类别；类别无关方法依赖人工标注示例；文本指定方法采用两阶段流程效率低下。提出的CountTX框架创新性地实现了单阶段文本直接指定计数，利用CLIP模型的跨模态能力，通过图像和文本编码器的交互直接输出对象计数。该方法突破了传统方法对视觉示例的依赖，为开放世界环境下的对象计数提供了更高效的解决方案。相关论文和代码已公开，为研究者提供了实用参考。

2025-12-02 14:18:19 993

原创基于zero-shot目标计数方法详解（Zero-Shot Object Counting）

针对上述局限性，本文提出了零样本目标计数新任务，仅需类别名称即可计数特定类别的对象实例，无需任何人工标注样例。如图1所示，ZSC使计数系统能够完全自主运行，用户只需提供类别名称即可指定计数目标。

2025-12-01 10:31:45 788

原创 LightningCLI教程 + 视频讲解

本文介绍PyTorch Lightning的LightningCLI工具，它可以自动生成命令行接口，简化深度学习项目配置。传统方式需要手动编写参数解析代码，而LightningCLI通过分析LightningModule和LightningDataModule的初始化参数，自动生成完整的命令行和配置文件支持。相比传统方式，它减少了样板代码，统一管理配置，使训练启动更加高效，只需几行核心代码即可完成复杂功能。

2025-11-22 17:00:58 197

原创论文Leveraging Unlabeled Data for Crowd Counting by Learning to Rank算法详解

本文提出一种基于排序的自监督人群计数方法CrowdCLIP，旨在解决标注数据稀缺问题。通过互联网自动收集无标签人群图像，并设计多任务网络联合学习计数（密度图回归）和排序（人数比较）任务。创新性地提出三种训练策略，其中多任务联合训练效果最佳。该方法无需人工标注即可构建大规模排序数据集，显著提升模型性能。实验验证了多尺度采样和排序数据对性能的重要性，为无监督人群计数提供了新思路。

2025-11-21 16:57:15 107

原创论文STEERER人群计数，车辆计数以及农作物计数算法详解（pytorch）

本文提出STEERER模型，通过选择性继承学习实现多尺度特征融合。模型采用FSIA算法从低到高分辨率融合特征，并使用CAM方法显示各尺度特征区域。实验表明，该模型在车辆(TRANCOS)和玉米计数(MTC)任务中表现优异，MAE分别降低12.9%和14.0%。可视化结果显示STEERER在生成密度图和定位方面优于基线模型，尤其擅长检测大型和小而密集的物体。跨域测试证实模型具有良好可移植性，适用于车辆、树木等多种场景的定位和计数任务。

2025-11-15 10:44:31 408

原创论文Rethinking Counting and Localization in Crowds: APurely Point-Based Framework算法详解（PyTorch）

摘要：本文提出P2PNet，一种基于点预测的人群计数与定位新框架。针对现有密度图方法定位模糊和检测方法依赖伪标注的缺陷，该方法直接预测个体位置点，实现精确计数定位。创新点包括：1)纯点预测框架；2)密度归一化平均精度新指标；3)双分支网络结构。实验表明，P2PNet在计数精度和定位性能上达到最优，为人群分析任务提供了更实用的解决方案。相关代码和数据集已在GitHub开源。

2025-11-08 19:56:53 1141

原创论文TMTB（Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Count）详解

全监督，半监督以及无监督在人群计数中都有所研究，但是相关的研究并不太多，大部分都是基于全监督并且是基于密度图的人群统计，当然还有很多其他的研究，这里就不一一例举出来了。本文要讲的是刚刚发表出来的基于半监督来做的，作者主要是从修复增强以及引入了新的网络架构mamba在人群计数中，mamba也是我目前第一次在人群计数中使用，当然作者也不是直接拿来用，而是基于mamba的骨干网络（backbone）来进行改进的，从实验的效果来看，这篇论文得到效果再大部分数据集上的效果还是可以的。

2025-11-01 13:23:24 978

原创 QT 6.6.0 实现五子棋，中国象棋（玩家对战，人机对战模式）

摘要：该项目包含两个棋类游戏开发案例：五子棋和中国象棋。五子棋采用C++/Qt6.6.0开发，支持本地人机对战和网络人人对战，包含AI决策、网络通信、音效系统等模块，提供实时聊天、战绩统计等功能。中国象棋实现人机对战，AI采用Minimax算法和Alpha-Beta剪枝，支持5级难度调整，包含完整的走棋规则和胜负判定。两个项目均具有美观的图形界面和完整的游戏流程，展示了Qt框架在游戏开发中的应用。

2025-10-11 17:42:22 996

原创 QT 6.6.0实现“雷霆战机”游戏（经典游戏回顾）

摘要：本文介绍了一款基于Qt框架开发的雷霆战机射击游戏。游戏支持键盘控制战机移动和射击，包含三种不同难度的敌机（10/15/20分），具有实时碰撞检测、真暂停功能和音效系统。核心功能包括玩家控制、敌机生成、双向子弹系统和计分管理。游戏提供完整的生命周期管理，从开始界面到游戏结束统计，并支持打包为exe文件。文末推荐了多个图标资源网站供开发者参考。

2025-10-09 10:32:28 1034

原创 QT中基于websocket实现“在线白板协作”项目

在线协作白板系统，支持多人实时绘图、文本编辑和聊天通信。系统采用C++/Qt开发，具有铅笔、直线、矩形、椭圆、文本和橡皮擦等多种绘图工具，支持撤销/重做、保存导出等操作。网络模块基于WebSocket实现，支持房间创建、用户管理、实时同步和状态广播。界面设计简洁直观，包含工具栏、颜色选择器和网格背景，提供连接状态指示灯和用户列表显示。该系统实现了较好的协作绘图工作流，包括操作同步、冲突处理和状态管理，适合远程教学、团队会议和协同设计场景使用。

2025-09-26 16:23:33 1342

原创 MiniGPT-v2论文中几个关键名词介绍（重要）

计算机视觉与自然语言处理的交叉任务包括：视觉问答(VQA)用于回答图像相关问题；图像描述(ImageCaption)生成文本描述；指代表达(ReferringExpression)解析特定区域的语言指代；带定位的图像描述(GroundedImageCaption)结合视觉定位；区域识别(RegionIdentification)定位特定区域；目标解析与定位(Object parsing and grounding)识别并定位对象；目标身份验证(object identification)确认对象身份。这些任

2025-09-26 16:22:42 1112

原创基于QT 6.6.0 WebSocket协议实现远程桌面协助项目（客户端远程控制服务端，远程桌面显示，鼠标控制以及键盘输入控制）

本文介绍了一个基于QT开发的远程桌面协助项目，类似于TeamViewer等远程控制软件。该项目实现了客户端显示服务端桌面、鼠标键盘控制等功能，并已打包成完整软件。文章提供了视频讲解、代码下载地址和QT学习资源链接，帮助开发者学习相关技术。远程桌面技术可广泛应用于技术支持、故障排查等场景，能有效提升工作效率并降低服务成本。

2025-09-16 17:34:47 1029

原创基于QT 6.6.0 WebSocket协议进行客户端和服务端的通信（C/C++）

WebSocket协议是一种基于TCP的全双工通信协议，建立在TCP三次握手基础上，可通过HTTP协议升级实现。该协议于2011年被IETF标准化为RFC6455，其数据帧包含多个关键字段：FIN标志位指示消息结束片段，Opcode定义帧类型，Mask位控制负载掩码，Payload length表示数据长度。客户端到服务器的帧必须使用32位掩码键加密。WebSocket支持文本、二进制等多种数据格式，广泛应用于实时通信场景。相关技术文档可通过RFC6455、百度百科等渠道查阅。

2025-09-13 15:55:31 1004

原创 TinyWebServer-v2服务器新增SSL/TLS协议和Content-Encoding字段指定压缩格式，生成私钥和自签证书以及数据压缩，保证数据在传输的过程中是加密和提高传输的效率

该视频讲解TinyWebServer-v2服务器升级功能，包括文件上传下载、最小堆优化、界面美化及session管理，并新增图像分类、目标检测和语义分割功能。重点介绍了基于SSL/TLS协议实现数据加密传输的方法，通过生成私钥和证书确保数据安全，同时演示了使用tcpdump抓包和wireshark分析工具。由于采用自签证书，浏览器会提示"不安全"警告。项目代码已开源在GitHub。

2025-09-10 10:07:49 1287

原创 linux上使用tcpdump工具抓包（基于TCP协议的客户端向服务端发送信息，以及使用SSL/TLS协议之后客户端向服务端发送信息）和wireshark工具分析抓包（linux/C/C++）

本文介绍了基于TCP协议的socket网络编程实践，重点演示了使用tcpdump工具在Linux环境下抓取TCP通信过程的方法。文章提供了详细的编译运行步骤（make编译后启动server/client）和多种tcpdump抓包命令示例，包括全量抓包、控制台显示、数量限制等不同场景。通过对抓包数据的分析，清晰展示了TCP三次握手、明文数据传输（客户端发送"hello,server"）以及四次挥手（合并为三次）的完整通信流程。文末附有相关代码下载地址和Wireshark抓包工具的使用参考链

2025-09-01 12:53:57 1234

原创 muduo网络编译安装过程报错（Linux/C/C++）

Muduo是一个基于Reactor模式的现代C++高性能网络库，由陈硕开发，专注于Linux多线程TCP网络编程。其核心特性包括：1）高性能事件驱动架构，使用epoll实现高并发；2）简洁的回调机制和常见网络操作封装；3）线程安全的One Loop per Thread模型；4）主要支持Linux但可跨平台移植。编译时常见问题包括：需禁用-Werror、安装GoogleTest和Boost.Test依赖库。典型使用示例展示了如何实现简单的Echo服务器，通过事件循环处理TCP连接和数据收发。

2025-08-17 15:45:08 904

原创 TinyWebServer-v2服务器增加上传和下载文件功能，最小堆代替双链表，界面美化以及服务器生成session id，浏览器保存cookie，图像分类实现，目标检测系统以及语义分割（C/C++）

摘要：本文介绍了基于Linux的C++轻量级Web服务器TinyWebServer-v2的改进版本。项目在原作者代码基础上进行了优化：1) 用最小堆替换双向链表定时器；2) 新增文件上传下载功能；3) 使用HTML/CSS/JavaScript美化界面。服务器采用线程池+非阻塞socket+epoll的并发模型，支持Reactor和Proactor模式，通过状态机解析HTTP请求。项目保持轻量级的初心，改进时借助AI辅助完成，新增功能通过分块传输解决大文件上传问题。Webbench测试显示多种模式下的性能表

2025-08-12 09:41:24 1250

原创分组查询注意力GQA（Grouped-query attention）算法详解

本文探讨了注意力机制的优化方法，重点介绍了分组查询注意力(GQA)的创新设计。针对多头注意力(MHA)内存开销大和多查询注意力(MQA)质量下降的不足，GQA采用键值头分组共享策略，在保持接近MHA性能的同时显著提升推理效率。研究提出两种优化方案：1）使用5%额外计算量将MHA检查点升级为MQA；2）引入GQA混合架构。实验显示GQA有效平衡效率与质量，特别适合长序列生成任务。但研究存在训练成本对比不足和架构覆盖不全面等局限性，尤其在纯解码器模型中的应用效果有待进一步验证。

2025-06-22 21:59:50 1737

空空如也

空空如也