- 博客(464)
- 资源 (13)
- 收藏
- 关注
原创 agent应用开发-一个实例的认识与构建
需要在 LangGraph 的状态中增加一个字段,记录当前正在分析的图片或页面区域。current_image_path: str # 当前正在分析的论文截图vision_results: dict # 存储 CV 工具返回的坐标或 OCR 结果analysis_report: str # 最终生成的解读这是项目的灵魂。所有节点必须知道现在进行到了哪一步。# 基础信息messages: list # 对话流paper_path: str # 论文路径# 提取的特征。
2026-01-24 15:52:15
683
原创 mAP, AUOCR, AUPR怎么计算、怎么用
在计算机视觉,特别是目标检测任务中,(mean Average Precision from IoU threshold 0.5 to 0.95)是一个广泛使用的综合性能评估指标。它衡量的是模型在不同下的平均精度(AP),再对所有类别取平均得到 mAP。定义:预测框与真实框的交集面积除以并集面积。
2026-01-23 21:30:00
756
原创 Agent设计模式与工程化
输入 (Input Schema)file_path(string, required): PDF 的绝对路径。(bool, default=True): 是否开启光学字符识别(针对扫描件)。(bool, default=True): 是否进行复杂的表格恢复。输出 (Output)content: 经过清理的 Markdown 文本,包含图片占位符。metadata: 包含页数、标题提取、表格坐标等。“根据当前论文题目,去 Google Scholar 或 Tavily 查找其引用量和相关讨论”
2026-01-21 08:48:36
642
原创 【读点论文】A Normalized Gaussian Wasserstein Distance for Tiny Object Detection将框标注转为符合高斯分布的范围。然后梯度回归W距离
检测微小物体是一个非常具有挑战性的问题,因为微小物体仅包含几个像素大小。我们证明,由于缺乏外观信息,最先进的探测器在微小物体上无法产生令人满意的结果。我们的主要观察结果是,基于交集(IoU)的指标(例如 IoU 本身及其扩展)对微小物体的位置偏差非常敏感,并且在用于基于锚的检测器时会极大地恶化检测性能。为了缓解这个问题,我们提出了一种使用 Wasserstein 距离进行微小物体检测的新评估指标。我们首先将边界框建模为 2D 高斯分布,然后提出一种称为归一化 Wasserstein 距离(NWD)的新度量,
2026-01-16 22:00:00
1245
原创 Agent原理与最简实践
在 CV 中,流经网络的是Tensor(如在 Agent 中,流经图的是State。它通常是一个 PythonTypedDict。所有节点都可以读取它,也可以更新它。import os# 设置 Key (或者直接写死用于测试)# --- 1. 定义状态 (State) ---# 这就像定义 PyTorch 的 Input Tensor 结构# messages 存储对话历史# operator.add 是一个 reducer,意味着新消息会追加到列表中,而不是覆盖。
2026-01-16 20:30:00
653
原创 agent应用开发和落地全景
当下的主流是 Multi-Agent Systems (如 **AutoGen**, **CrewAI**, **LangGraph**)。**理念:** 让一个全能 Agent 做所有事很难,但让一个“写手 Agent”和一个“审核 Agent”协作(Manager-Worker 模式)效果会好得多。目前行业通过 **AgentBench** 或 **LangSmith** 进行评估。不仅看“结果对不对”,还要看“过程是否冗余”、“工具调用是否精准”。**从 RAG 到 MemGPT/Mem0:*
2026-01-14 10:54:40
1032
原创 【读点论文】Few-Shot Object Detection A Comprehensive Survey元学习和迁移学习
少样本目标检测(FSOD)是应对深度学习目标检测对海量标注数据依赖的新兴领域,旨在通过**少量(K-shot,K 通常为 1-30)标注样本**检测新类别目标,核心分为**元学习**(含双分支、单分支架构,依赖 episodic 训练和特征聚合)和**迁移学习**(基于简单微调,聚焦梯度流优化与知识迁移)两大类方法,关键技术包括注意力机制、度量学习、数据增强等;常用数据集为 PASCAL VOC(20 类 和 Microsoft COCO80 类,评估以平均精度(AP)为核心指标当前趋势包括技术优化(如 T
2025-12-23 19:46:43
890
原创 【读点论文】RankIQA Learning from Rankings for No-reference Image Quality Assessment先懂好坏,再学打分,通过孪生对比网络提取质量
本文提出了一种无参考图像质量评估(NR-IQA)方法 RankIQA,核心是通过合成生成的质量排序图像(无需人工标注)训练Siamese Network,并创新提出高效孪生网络反向传播技术(批量图像单次前向传播,利用批次内所有图像对计算梯度),解决了 IQA 数据集规模有限导致的 CNN 训练难题;随后将训练好的网络知识迁移到传统 CNN 并进行微调,以实现绝对图像质量估计。图像质量评估(IQA)旨在自动预测图像感知质量,需与人类平均主观分数(MOS)高度相关,广泛应用于图像恢复、超分辨率等领域。按是否依赖
2025-12-22 10:31:30
746
原创 【读点论文】State-of-the-art review and benchmarking ofbarcodelocalization methods
尽管条形码有着悠久的历史,但它仍然是供应链管理中必不可少的技术。此外,条形码在工业工程中有着广泛的应用,特别是在仓库自动化、组件跟踪和机器人引导方面。为了检测图像中的条形码,文献中提出了多种算法,自深度学习兴起以来,人们对该主题的兴趣显著增加。然而,该领域的研究受到许多限制,包括公共数据集和代码实现的稀缺,这阻碍了已发表结果的可重复性和可靠性。为此,我们开发了BarBeR(Barcode Benchmark Repository),这是一个用于测试和比较条形码检测算法的基准。该基准测试包括各种条形码检测算法
2025-12-16 15:01:01
948
原创 【读点论文】Depth Anything V2数据范式革新+模型蒸馏优化+评估基准升级,好的合成数据优于标注不佳真实数据,依旧Dinov2+DPT解码器,优化改变了损失设计和数据增强
Depth Anything V2针对单目深度估计(MDE)模型在细粒度细节与复杂场景鲁棒性的平衡难题,通过三大核心实践实现突破:一是用高精度合成标注图像完全替换真实标注图像,解决真实数据的标签噪声与细节缺失问题;二是**升级教师模型容量**(基于 DINOv2-G)并仅用合成数据训练;三是借助 62M 大规模伪标注真实图像实现教师到多尺度学生模型的知识迁移,同时规避合成数据的域偏移与场景覆盖局限。此外,针对现有测试基准噪声多、场景单一的缺陷,构建了高精度、多场景的 DA-2K 评估基准对 V1 的核心升级
2025-12-13 14:44:23
1297
原创 【读点论文】Depth Anything Unleashing the Power of Large-Scale Unlabeled Data基于dinov2结合MiDas进行深度估计,运用无标签数据
这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。为此,我们通过设计数据引擎来收集和自动注释大规模未标记数据(∼62M)来扩展数据集,这显着扩大了数据覆盖范围,从而能够减少泛化误差。我们研究了两种简单而有效的策略,使数据扩展前景光明。利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次,开发了辅助监督来强制模型从预训练的
2025-12-13 14:10:06
1009
原创 【读点论文】Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot MD and SNE坐标系变换
**Metric3D v2**是一款面向单目图像的**零样本度量深度与表面法向量联合估计**的几何基础模型,其核心突破在于针对度量深度的**相机内参歧义**和表面法向量的**标注稀缺**两大痛点,提出了**规范相机空间变换模块(CSTM)\**和\**联合深度 - 法向量优化模块**。模型基于**16 个数据集的超 1600 万张图像**(覆盖上万种相机模型)完成训练,不仅在**16 + 深度与法向量基准**上斩获 SOTA(零样本场景下 NYUv2 深度 δ₁达 0.980、KITTI 深度 AbsRel
2025-12-11 15:10:12
1261
1
原创 【读点论文】Metric3D:Towards Zero-shot Metric3D Prediction from A Single Image结合相机属性进行距离估计,规范相机空间计算消除度量模糊
在这项工作中,我们证明了零样本单视图度量深度模型的关键在于大规模数据训练和解决各种相机模型的度量模糊性的结合。我们提出了一个规范的相机空间变换模块,它明确地解决了模糊性问题,并且可以毫不费力地插入到现有的单目模型中。配备了我们的模块,单目模型可以通过数千个相机模型稳定地训练超过800万个图像,从而导致零样本泛化到具有不可见相机设置的野外图像。实验证明了我们的方法在7个零样本基准上的SOTA性能。值得注意的是,我们的方法在第二届Monocular Depth Estimation Challenge中获得了冠
2025-12-10 10:26:26
719
原创 【读点论文】单_双目深度估计研究进展与应用综述
深度估计作为计算机视觉领域的核心基础任务,在自动驾驶、增强现实、机器人导航等领域具有重要应用价值。单目方法通过端到端深度学习架构,如多尺度特征融合、注意力机制,突破传统几何先验限制,结合监督或自监督范式缓解数据依赖问题,但受限于尺度模糊性。双目技术依托立体匹配的几何约束,通过代价体积构建与三维卷积网络实现亚像素级视差计算,在动态场景鲁棒性上表现突出。两类技术通过语义几何协同优化形成互补,推动算法从局部特征匹配向全局三维感知升级。在三维显示领域,深度估计技术成为虚实融合的关键:单目方法支撑移动端设备的实时空间
2025-12-08 14:24:15
1199
原创 【读点论文】MiDaS3.1A Model Zoo for Robust Monocular Relative Depth Estimation需要好特征提取,全局建模能力。注意相对深度到绝对距离转换
- 我们的调查还包括最近的卷积方法,这些方法在图像分类任务中实现了与视觉转换器相当的质量。虽然以前的版本MiDaS v3.0只利用了vanilla vision Transformer ViT,但MiDaS v3.1提供了基于BEiT、Swin、SwinV 2、Next-ViT和LeViT的其他模型。这些模型提供了不同的性能-运行时间权衡。最好的模型将深度估计质量提高了28%,而高效的模型可以实现需要高帧速率的下游任务。我们还描述了集成新骨干的一般过程。高效模型(如 LeViT-224)帧率达 73fps,
2025-12-05 10:07:59
1101
原创 【读点论文】Domain-Adaptive Few-Shot Learning小样本构建原型学习,对抗适应训练,自适应对齐域特征
它旨在解决DA-FSL中的一个特定挑战:**DA目标意味着源和目标数据分布需要对齐,通常通过共享的域自适应特征嵌入空间;但是FSL目标规定每个类的目标域分布必须不同于任何源域类的目标域分布,这意味着跨域调整分布可能会损害FSL性能**。如何在保持源/目标一致的同时实现全局域分布调整,因此,类区分度成为关键。我们的解决方案是在DAPN中的域自适应特征嵌入学习之前显式地增强源/目标每类分离,以减轻域对齐对FSL的负面影响。大量的实验表明,我们的DAPN优于最先进的FSL和DA模型,以及它们的简单组合。
2025-11-25 14:04:49
968
原创 【读点论文】A Unified Approach to Domain Incremental Learning with Memory多损失融合加权调参加上历史数据记忆缓冲,平衡旧模型能力和新领域泛化
本文提出统一领域增量学习(UDIL)框架,用于解决带记忆的领域增量学习问题 —— 即模型需适应序列领域并仅访问少量过往领域数据(记忆库),同时缓解 “灾难性遗忘”。UDIL 的核心价值在于统一现有主流方法(如 ER、LwF、DER++ 等),理论分析表明这些方法本质是用不同固定系数最小化同一泛化误差界,而 UDIL 通过**自适应调整系数**始终实现更紧的误差界。域增量问题” 本质就是:**模型要依次学多个 “相似但不同” 的数据分布(比如白天 / 夜晚的猫、不同角度的车),既不能忘旧知识,又只能用少量旧数
2025-11-22 10:05:03
890
原创 智能体工作流开发体验
效率提升:对高频复用的资源(如角色图片、背景模板)进行本地缓存,减少 API 调用次数质量优化:针对不同书籍类型(小说 / 科普 / 历史)微调提示词模板,增强风格适配性容错处理:在工作流中添加节点重试机制(如音频生成失败时重试 3 次),提升稳定性引入多语言支持:扩展语音合成插件至多语言音色,适配外文书籍增强交互性:通过 Coze 的 “用户输入节点” 在视频生成过程中插入用户提问环节自动化发布:对接抖音 / 视频号 API,实现视频生成后直接发布至社交平台按 “基础准备→核心资源→工作流节点
2025-11-20 13:16:27
1042
原创 【读点论文】Revisiting Class-Incremental Learning with Pre-Trained Models冻结基础模型,构建对比原型,余弦求解距离,新旧分类头分开计算损失
类增量学习使学习系统能够在不忘记旧概念的情况下不断融入新概念。典型的CIL方法可以分为几类。基于范例的方法保存和重放旧类中的范例以恢复以前的知识。除了直接保存范例外,其他方法还可以保存特征或使用生成模型,构建记忆。基于知识蒸馏的方法旨在更新期间对齐新旧模型的输出,从而维护旧概念的知识。对齐可以在几个方面建立,iCaRL 和LwF 利用logit蒸馏,这要求旧类的输出logit相同。LUCIR 利用特征提取并强制输出特征在模型之间相同。一些后续工作提取其他特征产品以抵抗遗忘,例如,注意力图,加权特征图,池化特
2025-11-19 10:40:03
959
原创 智能体工作流构建与认识
智能体工作流是 “状态驱动的自动化执行引擎”,通过 “FSM + 图灵机” 模型实现动态决策与复杂业务闭环。其核心价值在于将分散的模型能力、工具、知识库整合为可复用的业务系统,解决传统线性流程的灵活性不足问题。传统 OA 工作流基于纯有限状态机(FSM),流程固定(如 “提交→审核→审批”),无动态决策能力;智能体工作流则是 “FSM + 图灵机” 的混合模型,支持流程动态调整(如 “插图质量不达标→重新生成”),具备自我修正能力。Coze 工作流支持通过可视化的方式,对插件、大语言模型、代码块等功能模块进
2025-11-18 15:32:39
899
原创 智能体的资源构建、开发、运用基础
一个框架的本质,是提供一套经过验证的“规范”。它将所有智能体共有的、重复性的工作(如主循环、状态管理、工具调用、日志记录等)进行抽象和封装,让我们在构建新的智能体时,能够专注于其独特的业务逻辑,而非通用的底层实现。低代码平台是代码开发的互补选择,实际项目中可采用 "混合开发" 模式 —— 用低代码快速验证想法,用代码实现精细化控制;用平台处理标准化流程,用代码处理特殊逻辑**。智能体开发平台的资源是支撑 AI 应用的 "数字基础设施",包含五大核心类别,共同构成 "感知、决策、执行、反馈" 的闭环系统
2025-11-17 15:34:30
681
原创 【读点论文】Color Shift Estimation-and-Correction for Image Enhancement基于UNet的光照矫正,颜色偏移估计COSE,颜色调制COMO模块
在次优照明条件下捕获的图像可能包含曝光过度和曝光不足。目前的方法主要集中在调整图像亮度,这可能会加剧曝光不足区域的色调失真,并且不能恢复曝光过度区域的准确颜色。我们观察到曝光过度和曝光不足的区域显示相反的色调分布偏移,这在联合建模中可能不容易标准化,因为它们通常没有“正常曝光”的区域/像素作为参考。在本文中,**我们提出了一种新的方法,通过学习估计和校正这种颜色偏移来增强曝光过度和曝光不足的图像。具体地说,我们首先通过基于网络的网络导出输入图像的明亮和黑暗版本的颜色特征图,随后是伪正常特征生成器以产生伪正常
2025-11-14 15:20:30
897
原创 智能体开发基础
智能体(Agent)在人工智能领域中,是**指一个能够自主操作、作出决策的实体**。智能体的设计目的是让它能够感知其环境,并根据感知到的信息作出反应;能够在其所处的环境中执行任务,并达到预定的目标。这些环境可能是实际的物理世界,也可能是数字世界,如虚拟环境或软件应用中。这些信息可能是文本信息,也可能是语音、图片、视频等多模态信息。智能体(Agent)作为先进的人工智能实体,通过持续感知外部环境、自主决策并执行行动来达成预设目标。其架构具备环境感知、动态决策、行为执行等核心功能模块,并集成记忆存储机制、多层级
2025-11-13 19:47:03
657
原创 【读点论文】Dual Consolidation for Pre-Trained Model-Based DIL结合预训练模型与各领域任务向量,构建适配已见领域的统一嵌入空间,提出双表征\分类器双整合
针对**领域增量学习(DIL)中模型学习新领域知识时易发生**灾难性遗忘**(覆盖预训练表示与分类器)的问题,南京大学团队提出**DUCT(Dual Consolidation)方法**,通过在表示层和分类器层双维度整合历史知识:表示整合阶段,结合预训练模型与各领域任务向量(引入**任务相似度优化合并权重),构建适配所有已见领域的统一嵌入空间;分类器整合阶段,通过新分类器重训练对齐统一表示,同时基于类级语义信息(预训练模型提取的类中心欧氏距离)和最优传输(OT)估计旧领域,既能适应新域,又不遗忘旧域知识。
2025-11-12 16:24:49
648
原创 coze开发基础
工作流是一系列可执行指令的集合,用于实现业务逻辑或完成特定任务。它为应用/智能体的数据流动和任务处理提供了一个结构化框架。工作流的核心在于将大模型的强大能力与特定的业务逻辑相结合,通过系统化、流程化的方法来实现高效、可扩展的 AI 应用开发。扣子提供了一个可视化画布,你可以通过拖拽节点迅速搭建工作流。同时,支持在画布实时调试工作流。在工作流画布中,你可以清晰地看到数据的流转过程和任务的执行顺序。数据流转:书名→书籍信息→解读文案→语音 / 图像→视频合成;逻辑控制:若图书信息 API 调用失败,通过选择器节
2025-11-11 20:38:03
732
原创 【读点论文】A Comprehensive Survey of Few-shot Learning梳理好相关定义和概念,认清方法和目的。从数据层面,迁移特征复用,元学习,原型度量等方向去解决小样本问题
元学习通过 “内外循环” 优化 “通用初始化参数”,内循环(任务级优化):对每个训练任务,用支持集更新参数,计算查询集损失;外循环(元级优化):基于所有任务的损失,更新初始化参数,确保参数对 “未见过任务” 的适配性。预训练 + 微调(工程落地首选),无需重新设计模型,直接复用成熟的预训练模型(如 ResNet-50、BERT);微调成本低,仅需少量支持集样本即可提升性能。分层微调:冻结底层(如 ResNet 的前 10 层)、微调中层,平衡 “通用特征” 与 “任务适配”;余弦相似度替换激活函数:如 Dh
2025-11-04 19:56:19
934
原创 【读点论文】Hybrid Models for Open Set Recognition基于流的密度估计模型和判别分类器
我们提出了OpenHybrid开集识别框架。我们的方法建立在基于流的密度估计模型和判别分类器之上,大量的实验表明,我们的方法达到了最先进的水平。基于流的模型的一个共同问题是,他们往往分配更大的可能性,以出-分布样本。我们在各种数据集上经验性地观察到,通过学习联合特征空间,这个问题消失了。消融研究还表明,联合训练是上级开集识别性能的另一个关键因素。目标是最大化已知类样本在 latent 空间的概率密度,让已知类在密度分布中形成 “高似然簇”,为未知类检测提供清晰阈值依据。让编码器学习同时满足 “已知类判别区分
2025-10-31 11:23:33
727
原创 【读点论文】OrCo: Towards Better Generalization via Orth and Contrast FSCIL需要管理exemplar,对比预训练,构建正交特征避免类间重叠
少样本类增量学习(FSCIL)引入了一种范式,在这种范式中,问题空间随着有限的数据而扩展。FSCIL方法固有地面临着灾难性遗忘的挑战,因为数据增量地到达,使得模型容易受到先前获得的知识的影响。此外,考虑到在任何给定时间可用的标记样本的稀缺性,模型可能容易过度拟合,并且发现在广泛的预训练和有限的增量数据之间取得平衡具有挑战性。为了解决这些挑战,我们提出了基于两个核心原则的OrCo框架:特征在表示空间中的正交性和对比学习。特别是,我们通过在预训练阶段采用监督和自监督对比损失的组合来提高嵌入空间的泛化能力。此外,
2025-10-30 22:01:51
497
原创 【读点论文】Learning with Fantasy:Virtual Contrastive Constraint for FSCIL构建对比学习框架凝聚类语义,队列存预分配类空间,增量微调高层特征
SAVC 方案通过 “虚拟类占位符 + 多尺度对比学习 + 增量参数约束” 三大核心机制,在代码中实现了从基类训练到增量更新的全流程优化。基础训练阶段通过联合损失构建分离的特征空间,增量阶段通过有限参数更新保留旧类知识,最终在少样本类增量场景下实现了泛化性能与抗遗忘能力的平衡。少样本类增量学习(Few-Shot Class-incremental learning,FSCIL)的目标是从有限的样本中不断地学习新的类,而不会忘记旧的类。主流的FSCIL框架首先在基本会话中采用交叉熵损失(cross-entro
2025-10-27 17:31:38
952
原创 【读点论文】Adding Conditional Control to Text-to-Image Diffusion Models通过权重分离、零卷积融合、模块化条件处理,对扩散模型的高效条件控制
ControlNet 通过权重分离、零卷积融合、模块化条件处理三大核心设计,实现了对扩散模型的高效条件控制。本文提出ControlNet,一种为大型预训练文本到图像扩散模型(如 Stable Diffusion)添加空间条件控制的神经网络架构。其核心设计是锁定预训练模型的参数以保留其原有能力,同时创建模型编码层的可训练副本,并通过零卷积(权重与偏置初始化为 0 的 1×1 卷积) 连接两者,避免训练初期有害噪声影响预训练骨干网络;支持 Canny 边缘、人体姿态、深度图、分割图等多种条件输入,可单条件或多条
2025-10-17 09:04:54
1035
原创 【读点论文】DS-AL: A Dual-Stream Analytic Learning for Exemplar-Free CIL需要一个可靠的基础模型,重构增量为串联递归最小二乘,实现联合等价性
主流将CIL问题重新定义为级联递归最小二乘(C-RLS)任务,允许CIL和其联合学习对应物之间的等效性。补偿流由双激活补偿(DAC)模块控制。该模块使用与主流不同的激活函数重新激活嵌入,并通过将嵌入投影到主流线性映射的零空间来寻求拟合补偿。实验结果表明,尽管DS-AL是一种无样本技术,在各种数据集上提供与基于回放的方法相当或更好的性能,包括CIFAR-100,ImageNet 100和ImageNet-Full。此外,C-RLS的等效属性允许DS-AL以相位不变的方式执行CIL。无样本约束下的类增量学习
2025-10-14 19:29:48
871
原创 【读点论文】A Bag of Tricks for Few-Shot Class-IncrementaL预训基训增训分阶段整理特征,旧类固定新类留空间。固定基模重要参数防遗忘,微调增量子网络增加适应性
我们提出了一套用于少样本类增量学习(FSCIL)的技巧框架,这是一种具有挑战性的持续学习形式,涉及不断适应有限样本的新任务。 **FSCIL 需要稳定性和适应性,即在学习新任务的同时保持对先前学习任务的熟练程度**。我们提出的一系列技巧汇集了六种关键且极具影响力的技术,这些技术可在 FSCIL 的统一框架下提高稳定性、适应性和整体性能。**我们将这些技巧分为三类:稳定性技巧、适应性技巧和训练技巧**。稳定性技巧旨在通过增强学习类嵌入之间的分离并最大程度地减少学习新类时的干扰来减轻对先前学习的类的遗忘。另一方
2025-10-12 16:39:43
895
原创 【读点论文】Few-shot Class-incremental Learning for Clsand Obj: A Survey必要的概念梳理,典型的方法对比,FSCIL还属于发展阶段,研究空间大
少样本类增量学习(FSCIL)是机器学习中的一个独特的挑战,它需要在不忘记已有知识的前提下,从稀疏的训练样本中对新类进行增量学习。虽然这一领域最近取得了一些进展,但它仍然是一个活跃的探索领域。本文旨在对FSCIL进行全面系统的综述。在我们的深入研究中,我们深入研究了FSCIL的各个方面,包括问题定义,不可靠经验风险最小化和稳定性-可塑性困境的主要挑战的讨论,IL和少样本学习(FSL)的一般方案和相关问题。此外,我们还提供了基准数据集和评估指标的概述。此外,介绍了基于数据、基于结构和基于优化的少样本类增量分类
2025-10-09 10:48:22
544
原创 【pytorch】数据增强与时俱进,未来的改进和功能将仅添加到 torchvision.transforms.v2 转换中
在 `torchvision.transforms.v2` 命名空间中发布了一套新的转换。与 v1(在 `torchvision.transforms` 中)相比,这些转换具有许多优势:它们不仅可以转换图像,**还可以**转换边界框、掩码或视频。这为图像分类以外的任务(如检测、分割、视频分类等)提供了支持。它们支持更多转换,例如 [`CutMix`]支持任意输入结构(dicts、lists、tuples 等)。更快。**未来的改进和功能将仅添加到 v2 转换中**。推荐以下指南以从转换中获得最佳性能:依赖
2025-09-28 11:30:58
1204
原创 【读点论文】Bayesian Embeddings for Few-Shot Open World Recognition
小上下文FS-OWR变体假设可以访问小上下文FS-OWR。(或不存在的)Dtrain。这与在k-shot nway few-shot分类范例中对任务进行采样时所做的假设类似。关于未知-已知类的分类和未知-已知类的检测来评估模型。该变体实际上可以由其中标签对于用户是主观的应用(诸如自动化照片标记服务)来激发。用户能够为图像提供标签,系统利用这些标签学习自动分类。不同的用户可能具有完全不相交的标签集,从而不可能收集大型标签数据集,并且检测所提供的可用标签集之外的输入是至关重要的。此外,该设置突出(或隔离)了问题
2025-09-27 18:34:03
1069
原创 【读点论文】Open-Set Likelihood Maximization for Few-Shot Learning支持集锚定原型,查询集最大似然优化原型及阈值分隔,依赖良好的特征提取能力
我们探索了流行的Transductive 式设置,它在推理中利用了未标记的查询实例。由于观察到现有的Transductive 方法在开集场景中表现不佳,我们提出了最大似然原理的推广,其中在通常的参数模型旁边引入了降低潜在离群值影响的潜在得分。我们的公式嵌入了来自支持集的监督约束和阻止对查询集过度自信预测的额外惩罚。我们继续进行块坐标下降,潜在分数和参数模型交替地共同优化,从而相互受益。我们称我们的结果公式为开集似然优化(OSLO)。OSLO是可解释的和完全模块化的;它可以无缝地应用于任何预先训练的模型之上。
2025-09-25 08:58:41
1070
原创 【读点论文】Task-Adaptive Negative Envision for Few-Shot Open-Set Recognition结合自注意力构建负样本生成器,可结合语义嵌入提升负原型构建
少样本开放集识别(FSOR),少样本类别分类+未知样本拒绝;广义少样本开放集识别(GFSOR):多样本+少样本类别分类+未知样本拒绝。现有方法缺陷依赖手动阈值调优,不同任务需不同阈值。提出方法:任务自适应负类构想,生成负原型替代手动阈值,动态构建任务自适应拒绝边界,集成阈值调优至学习过程,实现“无阈值”解决方案。负生成器,基础型:MLP(基于平均原型)、ATT(Transformer注意力);进阶型:ATT-G(适配GFSOR,融合多样本原型)、SEMAN-G(融合类别语义);多负原型(M=5,取最大阈值提
2025-09-24 14:50:31
986
原创 【读点论文】Few-shot Open-set Recognition Using Background as Unknowns通过热图进行前后景分离,留出背景类别特征空间提升开集识别能力
闭集分类局限仅能将输入归为预定义训练类,无法处理真实场景中的未知类;少样本开集识别(FSOSR)定义用少量已知类训练样本,实现已知类分类+未知类拒斥;传统开集识别需大量训练数据,少样本场景下基于分布的方法失效。核心创新方法,额外背景类设计在分类器中增设背景类,为未知类预留特征空间,最终FC层参数含已知类与背景类权重,背景特征复用将已知类图像背景特征作为伪未知类样本,用于训练背景类分类器。ProCAM模块通过迭代生成多轮归一化类激活图(τ=4时最优),优化前景-背景分离,提升背景特征纯度。分类器构建,已知类原
2025-09-21 01:18:19
455
原创 【读点论文】Few Shot Open-Set Recognition Using Meta-Learning使用马氏距离构建高斯嵌入原型、引入最大化新类别样本后验熵的开放集损失
在该研究中,元学习(Meta-Learning,简称 ML)被定义为解决 “learning to learn”(学会学习)问题的技术框架,其核心目标是让 “元学习器” 通过对大量 “子学习任务” 的观察与学习,掌握一种通用的 “学习算法”,从而能够快速适配新的、数据稀缺的学习任务(如少样本开放集识别)。基于原型网络(Prototypical Network) 架构构建元学习框架,并针对 “开放集识别” 场景进行扩展,具体构建步骤分为 “基础元学习流程” 和 “开放集适配优化” 两部分:基础元学习流程,开放
2025-09-19 23:12:33
773
原创 【读点论文】Real-ESRGAN: Training Real-World Blind SR with Pure...动态退化,多损优化,引入sinc滤波器带谱归一化U-Net鉴别器,纯合成助力超分
Real-ESRGAN 是针对真实场景盲超分辨率(Blind SR) 提出的模型,通过纯合成数据训练扩展了 ESRGAN 的实用性;其核心创新包括:提出高阶退化模型(重点采用二阶) 以模拟真实场景中复杂的多次退化过程(如相机成像、编辑、网络传输等),引入sinc 滤波器处理常见的振铃和过冲伪影,设计带谱归一化(SN)的 U-Net 鉴别器以提升鉴别能力并稳定训练;实验中,该模型在 RealSR、DRealSR 等多个真实数据集上,相比 ESRGAN、RealSR 等方法,在去除伪影和恢复纹理细节上表现更优
2025-09-18 00:13:29
1139
2021-2022年的高精度模型,swin transformer.convnext等
2023-02-04
轻量化混合(卷积和transformer)网络,发论文的热点
2023-02-03
mobilenet系列V1-V3
2022-06-05
图像分类方向的研究写作,中文学报写作格式,从数据集,经典网络角度分析。
2022-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅