- 博客(473)
- 资源 (13)
- 收藏
- 关注
原创 llm-algo-4
本文摘要(149字): 深度学习开发中的三个核心技巧:1)张量维度变换推荐使用einops库,通过语义化维度命名提升可读性,避免硬编码索引导致的隐蔽错误;2)Embedding层本质是高效查表操作,相比线性变换计算复杂度更低,适合大词表场景;3)自定义算子需手动实现反向传播,重点掌握Linear+ReLU的梯度计算规则,并通过gradcheck严格验证。文中提供了生产级代码示例,强调内存连续性、维度对齐等工程细节,辅以数学推导和计算图说明底层原理。这些实践对Transformer等现代模型开发至关重要。
2026-06-24 00:12:52
168
原创 llm-algo-3
本文提出LLM系统工程的四大核心模块(KV Cache、混合精度/Tensor Core、Profiling、FlashAttention)体系化学习方法,构建"精度-显存-算力"三角权衡模型作为顶层框架。文章提出三维认知体系:1)建立数据流全栈视图,标注各环节数据类型/存储位置;2)培养显存估算、Profiling诊断、硬件特性等基础能力;3)选择FlashAttention内核或KV Cache管理等方向进行源码级深挖。通过三个递进实践项目(基准测试→瓶颈诊断→系统集成)形成工程闭环,强调用Profil
2026-06-21 21:03:08
249
原创 llm-algo-2
通信量与 Batch Size 线性增长:这是 MoE 训练倾向于大 batch 的根本原因。小 batch 时,通信延迟(latency-bound)主导;大 batch 时,通信带宽(bandwidth-bound)主导,可以通过计算-通信重叠来隐藏。当 batch 翻倍时,通信量翻倍,但计算量也翻倍,重叠效率提升。EP Degree 增加反而减少单设备通信:上表中 EP=16 的单层通信量是 EP=8 的一半。这是因为每个设备只需与 EP group 内的其他设备通信,而 EP group 越大,本
2026-06-19 10:29:06
346
原创 llm-algo-1
涵盖了 **Attention 机制原理、PyTorch Profiling 性能分析、显存优化** 以及 **数值调试技巧**。这四个模块并非孤立存在,它们共同构成了 **“LLM 底层系统工程”** 的基石。要从“学会知识点”进阶到“构建体系化能力”,需要将这四块内容重组为一条 **“正确性 → 可观测性 → 效率上限”** 的工程闭环。
2026-06-16 22:49:56
418
原创 【读点论文】C-RADIOv4 (Tech Report)通过多模型蒸馏,对齐蒸馏特征,增强多分辨率适配能力,损失优化设计
C-RADIOv4是基于 AM-RADIO/RADIOv2.5 设计的聚合视觉基础模型,依托多教师蒸馏核心技术,将教师集升级为SigLIP2、DINOv3、SAM3并舍弃 DFN CLIP,推出SO400M(412M 参数)和H(631M 参数)两个变体;该模型在保持与前代相同计算复杂度的前提下,通过随机分辨率训练、平移等变损失 / 平移等变 MESA、平衡摘要损失、DAMP 权重噪声等多项方法更新,解决了模式切换、固定模式噪声、教师损失占比失衡等问题,强化了任意分辨率支持并恢复ViTDet 模式大幅提升高
2026-02-15 11:00:00
1417
原创 yolov8的整理与分析,非全新理论创新,而是基于v5融合 YOLOX/YOLOv6/YOLOv7/PPYOLOE 等 SOTA 技术的工程化
基于 YOLOv5 优化,提供 P5(640 分辨率)/P6(1280 分辨率)检测网络,以及基于 YOLACT 的实例分割网络;设计**n/s/m/l/x**5 个尺度模型,通过**深度因子(d)、宽度因子(w)、比例因子(r)** 精细化调整网络结构,适配从边缘设备到高端 GPU 的全场景需求。**无全新理论创新,聚焦工程化优化与 SOTA 技术融合**,核心改动集中在**骨干网络模块替换、检测头解耦 + 无锚框化、动态正负样本分配、训练策略精细化**四大方向。Ultralytics 未将其单纯定义为
2026-02-14 16:30:00
1613
原创 【读点论文】Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning
本文针对**有向微小目标检测**这一复杂且研究不足的问题,系统提出了**AI-TOD-R 数据集**(现有有向目标检测数据集中目标尺寸最小,平均仅 10.6 像素)、涵盖全监督和标签高效范式的**基准**,并发现现有方法存在 “置信目标更置信、微小目标被边缘化” 的**学习偏差**;为此设计**动态粗到精学习(DCFL)方案**,通过动态更新先验位置、平衡样本数量与质量实现无偏学习,该方法在 8 个异质数据集上验证了**SOTA 精度、高效率和强通用性**,且不增加推理时的参数与计算开销。
2026-02-13 11:00:00
763
原创 【读点论文】A survey on deep learning for 2D and 3D human pose estimation
人体姿势估计是计算机视觉和机器人技术中的一项基本任务,涉及从图像或视频中检测人体关节。它成为一个快速发展的领域,应用范围从动作识别到医疗保健。本次调查详细回顾了基于图像和视频场景中单人和多人环境中 2D 和 3D 人体姿势估计的各种方法。我们对可用的 2D 和 3D 姿势数据集进行了全面的分类和比较,重点介绍了它们的优点和局限性。此外,我们还概述了常用于评估姿态估计模型的准确性和鲁棒性的各种评估指标和损失函数。我们探索姿态估计发挥重要作用的关键应用领域。该调查详细解释了人体姿势估计中的挑战,包括遮挡、数据稀
2026-02-08 21:45:00
1600
原创 【读点论文】Vision-Based Mistake Analysis in Procedural Activities: A Review of Advances and Challenges
程序活动中的错误分析是一个重要的研究领域,其应用涵盖工业自动化、身体康复、教育和人机协作。本文回顾了基于视觉的检测和预测结构化任务中的错误的方法,重点关注程序和执行错误。通过利用计算机视觉的进步,包括动作识别、预期和活动理解,基于视觉的系统可以识别任务执行中的偏差,例如不正确的排序、使用不正确的技术或计时错误。我们探讨了班内变异性、观点差异和组合活动结构带来的挑战,这些挑战使错误检测变得复杂。这项工作旨在建立一个关于程序活动中基于视觉的错误分析的统一视角,突出其在提高不同领域的安全性、效率和任务绩效方面的潜
2026-02-07 08:00:00
1294
原创 agent应用开发-一个实例的认识与构建
需要在 LangGraph 的状态中增加一个字段,记录当前正在分析的图片或页面区域。current_image_path: str # 当前正在分析的论文截图vision_results: dict # 存储 CV 工具返回的坐标或 OCR 结果analysis_report: str # 最终生成的解读这是项目的灵魂。所有节点必须知道现在进行到了哪一步。# 基础信息messages: list # 对话流paper_path: str # 论文路径# 提取的特征。
2026-01-24 15:52:15
818
原创 mAP, AUOCR, AUPR怎么计算、怎么用
在计算机视觉,特别是目标检测任务中,(mean Average Precision from IoU threshold 0.5 to 0.95)是一个广泛使用的综合性能评估指标。它衡量的是模型在不同下的平均精度(AP),再对所有类别取平均得到 mAP。定义:预测框与真实框的交集面积除以并集面积。
2026-01-23 21:30:00
941
原创 Agent设计模式与工程化
输入 (Input Schema)file_path(string, required): PDF 的绝对路径。(bool, default=True): 是否开启光学字符识别(针对扫描件)。(bool, default=True): 是否进行复杂的表格恢复。输出 (Output)content: 经过清理的 Markdown 文本,包含图片占位符。metadata: 包含页数、标题提取、表格坐标等。“根据当前论文题目,去 Google Scholar 或 Tavily 查找其引用量和相关讨论”
2026-01-21 08:48:36
726
原创 【读点论文】A Normalized Gaussian Wasserstein Distance for Tiny Object Detection将框标注转为符合高斯分布的范围。然后梯度回归W距离
检测微小物体是一个非常具有挑战性的问题,因为微小物体仅包含几个像素大小。我们证明,由于缺乏外观信息,最先进的探测器在微小物体上无法产生令人满意的结果。我们的主要观察结果是,基于交集(IoU)的指标(例如 IoU 本身及其扩展)对微小物体的位置偏差非常敏感,并且在用于基于锚的检测器时会极大地恶化检测性能。为了缓解这个问题,我们提出了一种使用 Wasserstein 距离进行微小物体检测的新评估指标。我们首先将边界框建模为 2D 高斯分布,然后提出一种称为归一化 Wasserstein 距离(NWD)的新度量,
2026-01-16 22:00:00
1383
原创 Agent原理与最简实践
在 CV 中,流经网络的是Tensor(如在 Agent 中,流经图的是State。它通常是一个 PythonTypedDict。所有节点都可以读取它,也可以更新它。import os# 设置 Key (或者直接写死用于测试)# --- 1. 定义状态 (State) ---# 这就像定义 PyTorch 的 Input Tensor 结构# messages 存储对话历史# operator.add 是一个 reducer,意味着新消息会追加到列表中,而不是覆盖。
2026-01-16 20:30:00
766
原创 agent应用开发和落地全景
当下的主流是 Multi-Agent Systems (如 **AutoGen**, **CrewAI**, **LangGraph**)。**理念:** 让一个全能 Agent 做所有事很难,但让一个“写手 Agent”和一个“审核 Agent”协作(Manager-Worker 模式)效果会好得多。目前行业通过 **AgentBench** 或 **LangSmith** 进行评估。不仅看“结果对不对”,还要看“过程是否冗余”、“工具调用是否精准”。**从 RAG 到 MemGPT/Mem0:*
2026-01-14 10:54:40
1150
原创 【读点论文】Few-Shot Object Detection A Comprehensive Survey元学习和迁移学习
少样本目标检测(FSOD)是应对深度学习目标检测对海量标注数据依赖的新兴领域,旨在通过**少量(K-shot,K 通常为 1-30)标注样本**检测新类别目标,核心分为**元学习**(含双分支、单分支架构,依赖 episodic 训练和特征聚合)和**迁移学习**(基于简单微调,聚焦梯度流优化与知识迁移)两大类方法,关键技术包括注意力机制、度量学习、数据增强等;常用数据集为 PASCAL VOC(20 类 和 Microsoft COCO80 类,评估以平均精度(AP)为核心指标当前趋势包括技术优化(如 T
2025-12-23 19:46:43
1039
原创 【读点论文】RankIQA Learning from Rankings for No-reference Image Quality Assessment先懂好坏,再学打分,通过孪生对比网络提取质量
本文提出了一种无参考图像质量评估(NR-IQA)方法 RankIQA,核心是通过合成生成的质量排序图像(无需人工标注)训练Siamese Network,并创新提出高效孪生网络反向传播技术(批量图像单次前向传播,利用批次内所有图像对计算梯度),解决了 IQA 数据集规模有限导致的 CNN 训练难题;随后将训练好的网络知识迁移到传统 CNN 并进行微调,以实现绝对图像质量估计。图像质量评估(IQA)旨在自动预测图像感知质量,需与人类平均主观分数(MOS)高度相关,广泛应用于图像恢复、超分辨率等领域。按是否依赖
2025-12-22 10:31:30
845
原创 【读点论文】State-of-the-art review and benchmarking ofbarcodelocalization methods
尽管条形码有着悠久的历史,但它仍然是供应链管理中必不可少的技术。此外,条形码在工业工程中有着广泛的应用,特别是在仓库自动化、组件跟踪和机器人引导方面。为了检测图像中的条形码,文献中提出了多种算法,自深度学习兴起以来,人们对该主题的兴趣显著增加。然而,该领域的研究受到许多限制,包括公共数据集和代码实现的稀缺,这阻碍了已发表结果的可重复性和可靠性。为此,我们开发了BarBeR(Barcode Benchmark Repository),这是一个用于测试和比较条形码检测算法的基准。该基准测试包括各种条形码检测算法
2025-12-16 15:01:01
1037
原创 【读点论文】Depth Anything V2数据范式革新+模型蒸馏优化+评估基准升级,好的合成数据优于标注不佳真实数据,依旧Dinov2+DPT解码器,优化改变了损失设计和数据增强
Depth Anything V2针对单目深度估计(MDE)模型在细粒度细节与复杂场景鲁棒性的平衡难题,通过三大核心实践实现突破:一是用高精度合成标注图像完全替换真实标注图像,解决真实数据的标签噪声与细节缺失问题;二是**升级教师模型容量**(基于 DINOv2-G)并仅用合成数据训练;三是借助 62M 大规模伪标注真实图像实现教师到多尺度学生模型的知识迁移,同时规避合成数据的域偏移与场景覆盖局限。此外,针对现有测试基准噪声多、场景单一的缺陷,构建了高精度、多场景的 DA-2K 评估基准对 V1 的核心升级
2025-12-13 14:44:23
1643
原创 【读点论文】Depth Anything Unleashing the Power of Large-Scale Unlabeled Data基于dinov2结合MiDas进行深度估计,运用无标签数据
这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。为此,我们通过设计数据引擎来收集和自动注释大规模未标记数据(∼62M)来扩展数据集,这显着扩大了数据覆盖范围,从而能够减少泛化误差。我们研究了两种简单而有效的策略,使数据扩展前景光明。利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次,开发了辅助监督来强制模型从预训练的
2025-12-13 14:10:06
1185
原创 【读点论文】Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot MD and SNE坐标系变换
**Metric3D v2**是一款面向单目图像的**零样本度量深度与表面法向量联合估计**的几何基础模型,其核心突破在于针对度量深度的**相机内参歧义**和表面法向量的**标注稀缺**两大痛点,提出了**规范相机空间变换模块(CSTM)\**和\**联合深度 - 法向量优化模块**。模型基于**16 个数据集的超 1600 万张图像**(覆盖上万种相机模型)完成训练,不仅在**16 + 深度与法向量基准**上斩获 SOTA(零样本场景下 NYUv2 深度 δ₁达 0.980、KITTI 深度 AbsRel
2025-12-11 15:10:12
1725
1
原创 【读点论文】Metric3D:Towards Zero-shot Metric3D Prediction from A Single Image结合相机属性进行距离估计,规范相机空间计算消除度量模糊
在这项工作中,我们证明了零样本单视图度量深度模型的关键在于大规模数据训练和解决各种相机模型的度量模糊性的结合。我们提出了一个规范的相机空间变换模块,它明确地解决了模糊性问题,并且可以毫不费力地插入到现有的单目模型中。配备了我们的模块,单目模型可以通过数千个相机模型稳定地训练超过800万个图像,从而导致零样本泛化到具有不可见相机设置的野外图像。实验证明了我们的方法在7个零样本基准上的SOTA性能。值得注意的是,我们的方法在第二届Monocular Depth Estimation Challenge中获得了冠
2025-12-10 10:26:26
925
原创 【读点论文】单_双目深度估计研究进展与应用综述
深度估计作为计算机视觉领域的核心基础任务,在自动驾驶、增强现实、机器人导航等领域具有重要应用价值。单目方法通过端到端深度学习架构,如多尺度特征融合、注意力机制,突破传统几何先验限制,结合监督或自监督范式缓解数据依赖问题,但受限于尺度模糊性。双目技术依托立体匹配的几何约束,通过代价体积构建与三维卷积网络实现亚像素级视差计算,在动态场景鲁棒性上表现突出。两类技术通过语义几何协同优化形成互补,推动算法从局部特征匹配向全局三维感知升级。在三维显示领域,深度估计技术成为虚实融合的关键:单目方法支撑移动端设备的实时空间
2025-12-08 14:24:15
1623
原创 【读点论文】MiDaS3.1A Model Zoo for Robust Monocular Relative Depth Estimation需要好特征提取,全局建模能力。注意相对深度到绝对距离转换
- 我们的调查还包括最近的卷积方法,这些方法在图像分类任务中实现了与视觉转换器相当的质量。虽然以前的版本MiDaS v3.0只利用了vanilla vision Transformer ViT,但MiDaS v3.1提供了基于BEiT、Swin、SwinV 2、Next-ViT和LeViT的其他模型。这些模型提供了不同的性能-运行时间权衡。最好的模型将深度估计质量提高了28%,而高效的模型可以实现需要高帧速率的下游任务。我们还描述了集成新骨干的一般过程。高效模型(如 LeViT-224)帧率达 73fps,
2025-12-05 10:07:59
1241
原创 【读点论文】Domain-Adaptive Few-Shot Learning小样本构建原型学习,对抗适应训练,自适应对齐域特征
它旨在解决DA-FSL中的一个特定挑战:**DA目标意味着源和目标数据分布需要对齐,通常通过共享的域自适应特征嵌入空间;但是FSL目标规定每个类的目标域分布必须不同于任何源域类的目标域分布,这意味着跨域调整分布可能会损害FSL性能**。如何在保持源/目标一致的同时实现全局域分布调整,因此,类区分度成为关键。我们的解决方案是在DAPN中的域自适应特征嵌入学习之前显式地增强源/目标每类分离,以减轻域对齐对FSL的负面影响。大量的实验表明,我们的DAPN优于最先进的FSL和DA模型,以及它们的简单组合。
2025-11-25 14:04:49
1236
原创 【读点论文】A Unified Approach to Domain Incremental Learning with Memory多损失融合加权调参加上历史数据记忆缓冲,平衡旧模型能力和新领域泛化
本文提出统一领域增量学习(UDIL)框架,用于解决带记忆的领域增量学习问题 —— 即模型需适应序列领域并仅访问少量过往领域数据(记忆库),同时缓解 “灾难性遗忘”。UDIL 的核心价值在于统一现有主流方法(如 ER、LwF、DER++ 等),理论分析表明这些方法本质是用不同固定系数最小化同一泛化误差界,而 UDIL 通过**自适应调整系数**始终实现更紧的误差界。域增量问题” 本质就是:**模型要依次学多个 “相似但不同” 的数据分布(比如白天 / 夜晚的猫、不同角度的车),既不能忘旧知识,又只能用少量旧数
2025-11-22 10:05:03
1016
原创 智能体工作流开发体验
效率提升:对高频复用的资源(如角色图片、背景模板)进行本地缓存,减少 API 调用次数质量优化:针对不同书籍类型(小说 / 科普 / 历史)微调提示词模板,增强风格适配性容错处理:在工作流中添加节点重试机制(如音频生成失败时重试 3 次),提升稳定性引入多语言支持:扩展语音合成插件至多语言音色,适配外文书籍增强交互性:通过 Coze 的 “用户输入节点” 在视频生成过程中插入用户提问环节自动化发布:对接抖音 / 视频号 API,实现视频生成后直接发布至社交平台按 “基础准备→核心资源→工作流节点
2025-11-20 13:16:27
1214
原创 【读点论文】Revisiting Class-Incremental Learning with Pre-Trained Models冻结基础模型,构建对比原型,余弦求解距离,新旧分类头分开计算损失
类增量学习使学习系统能够在不忘记旧概念的情况下不断融入新概念。典型的CIL方法可以分为几类。基于范例的方法保存和重放旧类中的范例以恢复以前的知识。除了直接保存范例外,其他方法还可以保存特征或使用生成模型,构建记忆。基于知识蒸馏的方法旨在更新期间对齐新旧模型的输出,从而维护旧概念的知识。对齐可以在几个方面建立,iCaRL 和LwF 利用logit蒸馏,这要求旧类的输出logit相同。LUCIR 利用特征提取并强制输出特征在模型之间相同。一些后续工作提取其他特征产品以抵抗遗忘,例如,注意力图,加权特征图,池化特
2025-11-19 10:40:03
1166
原创 智能体工作流构建与认识
智能体工作流是 “状态驱动的自动化执行引擎”,通过 “FSM + 图灵机” 模型实现动态决策与复杂业务闭环。其核心价值在于将分散的模型能力、工具、知识库整合为可复用的业务系统,解决传统线性流程的灵活性不足问题。传统 OA 工作流基于纯有限状态机(FSM),流程固定(如 “提交→审核→审批”),无动态决策能力;智能体工作流则是 “FSM + 图灵机” 的混合模型,支持流程动态调整(如 “插图质量不达标→重新生成”),具备自我修正能力。Coze 工作流支持通过可视化的方式,对插件、大语言模型、代码块等功能模块进
2025-11-18 15:32:39
1087
原创 智能体的资源构建、开发、运用基础
一个框架的本质,是提供一套经过验证的“规范”。它将所有智能体共有的、重复性的工作(如主循环、状态管理、工具调用、日志记录等)进行抽象和封装,让我们在构建新的智能体时,能够专注于其独特的业务逻辑,而非通用的底层实现。低代码平台是代码开发的互补选择,实际项目中可采用 "混合开发" 模式 —— 用低代码快速验证想法,用代码实现精细化控制;用平台处理标准化流程,用代码处理特殊逻辑**。智能体开发平台的资源是支撑 AI 应用的 "数字基础设施",包含五大核心类别,共同构成 "感知、决策、执行、反馈" 的闭环系统
2025-11-17 15:34:30
722
原创 【读点论文】Color Shift Estimation-and-Correction for Image Enhancement基于UNet的光照矫正,颜色偏移估计COSE,颜色调制COMO模块
在次优照明条件下捕获的图像可能包含曝光过度和曝光不足。目前的方法主要集中在调整图像亮度,这可能会加剧曝光不足区域的色调失真,并且不能恢复曝光过度区域的准确颜色。我们观察到曝光过度和曝光不足的区域显示相反的色调分布偏移,这在联合建模中可能不容易标准化,因为它们通常没有“正常曝光”的区域/像素作为参考。在本文中,**我们提出了一种新的方法,通过学习估计和校正这种颜色偏移来增强曝光过度和曝光不足的图像。具体地说,我们首先通过基于网络的网络导出输入图像的明亮和黑暗版本的颜色特征图,随后是伪正常特征生成器以产生伪正常
2025-11-14 15:20:30
1016
原创 智能体开发基础
智能体(Agent)在人工智能领域中,是**指一个能够自主操作、作出决策的实体**。智能体的设计目的是让它能够感知其环境,并根据感知到的信息作出反应;能够在其所处的环境中执行任务,并达到预定的目标。这些环境可能是实际的物理世界,也可能是数字世界,如虚拟环境或软件应用中。这些信息可能是文本信息,也可能是语音、图片、视频等多模态信息。智能体(Agent)作为先进的人工智能实体,通过持续感知外部环境、自主决策并执行行动来达成预设目标。其架构具备环境感知、动态决策、行为执行等核心功能模块,并集成记忆存储机制、多层级
2025-11-13 19:47:03
712
原创 【读点论文】Dual Consolidation for Pre-Trained Model-Based DIL结合预训练模型与各领域任务向量,构建适配已见领域的统一嵌入空间,提出双表征\分类器双整合
针对**领域增量学习(DIL)中模型学习新领域知识时易发生**灾难性遗忘**(覆盖预训练表示与分类器)的问题,南京大学团队提出**DUCT(Dual Consolidation)方法**,通过在表示层和分类器层双维度整合历史知识:表示整合阶段,结合预训练模型与各领域任务向量(引入**任务相似度优化合并权重),构建适配所有已见领域的统一嵌入空间;分类器整合阶段,通过新分类器重训练对齐统一表示,同时基于类级语义信息(预训练模型提取的类中心欧氏距离)和最优传输(OT)估计旧领域,既能适应新域,又不遗忘旧域知识。
2025-11-12 16:24:49
976
原创 coze开发基础
工作流是一系列可执行指令的集合,用于实现业务逻辑或完成特定任务。它为应用/智能体的数据流动和任务处理提供了一个结构化框架。工作流的核心在于将大模型的强大能力与特定的业务逻辑相结合,通过系统化、流程化的方法来实现高效、可扩展的 AI 应用开发。扣子提供了一个可视化画布,你可以通过拖拽节点迅速搭建工作流。同时,支持在画布实时调试工作流。在工作流画布中,你可以清晰地看到数据的流转过程和任务的执行顺序。数据流转:书名→书籍信息→解读文案→语音 / 图像→视频合成;逻辑控制:若图书信息 API 调用失败,通过选择器节
2025-11-11 20:38:03
845
原创 【读点论文】A Comprehensive Survey of Few-shot Learning梳理好相关定义和概念,认清方法和目的。从数据层面,迁移特征复用,元学习,原型度量等方向去解决小样本问题
元学习通过 “内外循环” 优化 “通用初始化参数”,内循环(任务级优化):对每个训练任务,用支持集更新参数,计算查询集损失;外循环(元级优化):基于所有任务的损失,更新初始化参数,确保参数对 “未见过任务” 的适配性。预训练 + 微调(工程落地首选),无需重新设计模型,直接复用成熟的预训练模型(如 ResNet-50、BERT);微调成本低,仅需少量支持集样本即可提升性能。分层微调:冻结底层(如 ResNet 的前 10 层)、微调中层,平衡 “通用特征” 与 “任务适配”;余弦相似度替换激活函数:如 Dh
2025-11-04 19:56:19
1123
原创 【读点论文】Hybrid Models for Open Set Recognition基于流的密度估计模型和判别分类器
我们提出了OpenHybrid开集识别框架。我们的方法建立在基于流的密度估计模型和判别分类器之上,大量的实验表明,我们的方法达到了最先进的水平。基于流的模型的一个共同问题是,他们往往分配更大的可能性,以出-分布样本。我们在各种数据集上经验性地观察到,通过学习联合特征空间,这个问题消失了。消融研究还表明,联合训练是上级开集识别性能的另一个关键因素。目标是最大化已知类样本在 latent 空间的概率密度,让已知类在密度分布中形成 “高似然簇”,为未知类检测提供清晰阈值依据。让编码器学习同时满足 “已知类判别区分
2025-10-31 11:23:33
850
原创 【读点论文】OrCo: Towards Better Generalization via Orth and Contrast FSCIL需要管理exemplar,对比预训练,构建正交特征避免类间重叠
少样本类增量学习(FSCIL)引入了一种范式,在这种范式中,问题空间随着有限的数据而扩展。FSCIL方法固有地面临着灾难性遗忘的挑战,因为数据增量地到达,使得模型容易受到先前获得的知识的影响。此外,考虑到在任何给定时间可用的标记样本的稀缺性,模型可能容易过度拟合,并且发现在广泛的预训练和有限的增量数据之间取得平衡具有挑战性。为了解决这些挑战,我们提出了基于两个核心原则的OrCo框架:特征在表示空间中的正交性和对比学习。特别是,我们通过在预训练阶段采用监督和自监督对比损失的组合来提高嵌入空间的泛化能力。此外,
2025-10-30 22:01:51
622
原创 【读点论文】Learning with Fantasy:Virtual Contrastive Constraint for FSCIL构建对比学习框架凝聚类语义,队列存预分配类空间,增量微调高层特征
SAVC 方案通过 “虚拟类占位符 + 多尺度对比学习 + 增量参数约束” 三大核心机制,在代码中实现了从基类训练到增量更新的全流程优化。基础训练阶段通过联合损失构建分离的特征空间,增量阶段通过有限参数更新保留旧类知识,最终在少样本类增量场景下实现了泛化性能与抗遗忘能力的平衡。少样本类增量学习(Few-Shot Class-incremental learning,FSCIL)的目标是从有限的样本中不断地学习新的类,而不会忘记旧的类。主流的FSCIL框架首先在基本会话中采用交叉熵损失(cross-entro
2025-10-27 17:31:38
1017
原创 【读点论文】Adding Conditional Control to Text-to-Image Diffusion Models通过权重分离、零卷积融合、模块化条件处理,对扩散模型的高效条件控制
ControlNet 通过权重分离、零卷积融合、模块化条件处理三大核心设计,实现了对扩散模型的高效条件控制。本文提出ControlNet,一种为大型预训练文本到图像扩散模型(如 Stable Diffusion)添加空间条件控制的神经网络架构。其核心设计是锁定预训练模型的参数以保留其原有能力,同时创建模型编码层的可训练副本,并通过零卷积(权重与偏置初始化为 0 的 1×1 卷积) 连接两者,避免训练初期有害噪声影响预训练骨干网络;支持 Canny 边缘、人体姿态、深度图、分割图等多种条件输入,可单条件或多条
2025-10-17 09:04:54
1241
原创 【读点论文】DS-AL: A Dual-Stream Analytic Learning for Exemplar-Free CIL需要一个可靠的基础模型,重构增量为串联递归最小二乘,实现联合等价性
主流将CIL问题重新定义为级联递归最小二乘(C-RLS)任务,允许CIL和其联合学习对应物之间的等效性。补偿流由双激活补偿(DAC)模块控制。该模块使用与主流不同的激活函数重新激活嵌入,并通过将嵌入投影到主流线性映射的零空间来寻求拟合补偿。实验结果表明,尽管DS-AL是一种无样本技术,在各种数据集上提供与基于回放的方法相当或更好的性能,包括CIFAR-100,ImageNet 100和ImageNet-Full。此外,C-RLS的等效属性允许DS-AL以相位不变的方式执行CIL。无样本约束下的类增量学习
2025-10-14 19:29:48
955
2021-2022年的高精度模型,swin transformer.convnext等
2023-02-04
轻量化混合(卷积和transformer)网络,发论文的热点
2023-02-03
mobilenet系列V1-V3
2022-06-05
图像分类方向的研究写作,中文学报写作格式,从数据集,经典网络角度分析。
2022-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅