羞儿-CSDN博客

原创 LangChain基础概念，Semantic Kernel

LangChain 提供统一接口适配主流 LLM，屏蔽厂商差异，支持无缝切换模型。**两种模型类型**：`LLMs`：接收字符串提示词，返回字符串结果（如 GPT-3、LLaMA）。`Chat Models`：接收聊天消息列表，返回聊天消息结果（如 GPT-3.5-turbo）。**通用接口方法**：`predict()`：接收字符串，返回字符串（适用于两种模型）。`predict_messages()`：接收消息列表，返回消息（适用于两种模型）。提供六大核心模块，覆盖从数据处理到任务执行的全流程，支持构建

2025-08-21 18:26:52 654

原创【读点论文】Boosting Domain Incremental Learning提升 PIDIL 推理阶段的参数选择准确率，以减少知识冲突。仅存GMM参数，生成旧知识的伪特征，还能提高数据安全性

SOYO 有效解决了 PIDIL 方法在域数量增加时参数选择准确率下降的核心瓶颈。其提出的 GMC/DFR 机制为解决 DIL 中的数据不可访问和类别不平衡问题提供了一种新颖且高效的思路。MDFN 的特征融合策略也启发了更有效的域特征表示学习。该框架为构建在复杂、动态环境中持续学习并保持高性能的智能系统提供了有力支持。未来工作可探索 SOYO 在更多模态（如文本）和任务上的应用，以及进一步优化其效率和鲁棒性。以轻量化设计解决数据不可得、特征表达不足、选择准确率低三大难题，为动态环境下的持续学习提供实用解决方

2025-08-15 20:35:00 712

原创【读点论文】Rethinking Few-shot CIL: Learning from Yourself使用深层语义蒸馏中间层语义信息，特征校正模块提升增量学习稳定性,gAcc动态平衡新旧类权重

本文聚焦少样本类别增量学习（FSCIL），指出传统评估指标（如 aAcc、lAcc）因受基类性能主导而难以有效反映新类性能。为此，提出generalized average accuracy（gAcc）作为补充指标，通过参数 α 平衡基类与新类的评估权重，并以 α 的曲线下面积（AUC）作为综合指标。同时，基于视觉 Transformer（ViT）中间层特征更具泛化性的发现，设计Feature Rectification（FR）模块，通过实例级和类中心级关系迁移损失矫正最终特征，结合多层知识集成提升性能。

2025-08-12 17:14:57 872

原创 LLM基础概念

Transformer 的分支（Encoder-only、Decoder-only）、Scaling Laws、Tokenization、Embedding、微调、提示词工程、幻觉、RAG、Agent 相关模式（ReAct、PlanAndExecute、Multi-Agent）等。模型架构方面，除了 Transformer 的基本结构，可能需要深入 Transformer 的细节，比如注意力机制的变体（如稀疏注意力、线性注意力）、位置编码的更多类型。然后，预训练目标除了已提到的 MLM 和 Next Tok

2025-08-10 16:28:18 751

原创【读点论文】iTAML : An Incremental Task-Agnostic Meta-learning Approach通过元学习内循环适应新任务、外循环参数融合新旧任务、记忆库保存旧样本

提出的 iTAML 框架：通过元学习内循环快速适应新任务、外循环参数融合平衡新旧任务、记忆库保存旧任务样本，有效解决了增量学习中的灾难性遗忘问题。iTAML 通过动量基于的元更新规则实现平衡。外循环中，通用参数\(Φ\)由任务特定参数\(Φ_i\)的平均值与基础参数\(Φ_{base}\)加权融合（\(Φ=η·\frac{1}{t}\sumΦ_i + (1-η)·Φ_{base}\)），其中\(η=exp(-β·t/T)\)随任务数增加动态减小，早期加速学习新任务，后期减缓以保留旧知识。通过样本在各任务的最

2025-08-09 16:06:52 817

原创【读点论文】Object-Centric Cropping for Visual Few-Shot Classification 定位目标→裁剪增强→优化训练，较小“任务模糊性”

主要解决少样本图像分类中的任务模糊性问题，通过提取目标物体的位置信息进行裁剪增强来提升性能。关键信息包括研究目的、三种获取位置信息的方法（手动标注、SAM 模型、自动显著目标检测）、实验结果等。少样本图像分类中的任务模糊性、三种获取目标位置的方法（手动标注、SAM 基于点的分割、自动显著目标检测）、整合裁剪与上下文的方法提升性能、实验结果（在多个数据集上的准确率提升，如 Pascal VOC 达 5%）。探究利用目标物体局部位置信息能否提升分类性能，比较不同获取位置信息的方法（人力参与度不同）的效果，并分析

2025-08-06 19:17:05 568

原创【读点论文】Point, Segment and CountA Generalized Framework for Counting编解码器生成点提示，用SAM生成候选框和掩码，映射到CLIP空间对齐

在 PseCo 框架中，点编解码器是实现 “类无关目标定位” 的核心组件，其设计直接解决了 SAM在目标分割时的效率与精准度矛盾。点编解码器通过 “学习目标中心热图 - 生成精准点提示” 的流程，为 SAM 提供了高效且适配的输入，解决了基础模型结合时的效率与小目标漏检问题。其类无关设计和与 SAM 的协同优化，是 PseCo 框架在少样本 / 零样本计数任务中达到 SOTA 性能的核心原因之一。点编解码器的核心功能是生成精准且数量最少的目标中心点坐标，作为 SAM 的点提示，引导 SAM 高效分割目标。

2025-08-05 18:38:21 866

原创【读点论文】Learning To Count Everything多尺度特征提取、示例特征匹配、密度图回归，借鉴 MAML “学习可适应参数” 的思想，设计测试时适应策略微调梯度适配任务

借鉴少样本分类（如 MAML）的 “用少量样本快速适配新类别” 思想，将计数转化为少样本回归任务，突破传统全监督回归对大量标注的依赖。采用密度图预测而非 “检测后计数”，避免检测任务中对边界框的强依赖和早期二值化决策的局限性，增强对遮挡场景的鲁棒性，利用图像与 exemplar 的特征相关性，实现类别无关的目标定位与计数。生成目标密度图时，通过计算目标间平均距离确定高斯窗口大小，将离散点标注转化为连续密度分布，使模型可通过 MSE 优化

2025-08-02 16:28:34 713

原创【读点论文】Learning without Forgetting 蒸馏网络和微调的结合，不需要访问旧任务数据的增量训练

无遗忘学习方法LWF可以看作是反馈网络和微调的结合。微调从在相关数据丰富问题上训练的现有网络的参数初始化，并通过使用较低的学习率为新任务优化参数，找到新的局部最优点。反馈网络的思想是通过学习较简单的网络参数，使其在训练集或大型无标签数据集上产生与一个更复杂的网络集合相同的输出。LWF的方法不同之处在于，LWF使用相同数据来监督学习新任务并为旧任务提供无监督输出引导来解决适用于新旧任务的一组参数。当为神经网络添加新任务能力时，若旧任务训练数据不可得（如数据丢失、专有或庞大），网络易发生**灾难性遗忘**（旧

2025-07-27 17:40:09 633

原创【读点论文】Overcoming catastrophic forgetting in neural networks 通过贝叶斯先验和费舍尔矩阵实现选择性约束，仅通过损失函数即可实现持续学习

想象你学习了一门新语言（任务 B），但却完全忘记了之前学过的数学（任务 A）—— 这就是灾难性遗忘。神经网络在学习新任务时，会大幅调整权重，导致旧任务性能崩溃。EWC 算法的数学原理基于贝叶斯学习框架和参数约束机制，核心是通过量化权重对旧任务的重要性，在学习新任务时对关键权重施加选择性约束，避免灾难性遗忘。针对多任务场景，EWC 可通过合并多个二次惩罚项实现连续学习。当学习第三个任务时，网络会同时约束参数接近前两个任务的最优值，由于二次惩罚项的和仍是二次惩罚，这种机制能高效扩展到更多任务。通过结合生物突触巩

2025-07-26 14:18:54 297

原创 Model Control Protocol 三层架构设计，三种传输方式，完成MCP项目构建实现工具调试，多维度评价指标检测多工具多资源调用的鲁棒性和稳健性

1. MCP Server调试与Inspector：介绍MCP Server开发过程中可能遇到的问题以及解决这些问题的重要性。 Inspector工具：提供交互式界面，用于连接、测试、监控MCP Server。2. OpenMemory与跨平台协作：构建AI协作生态，实现信息壁垒的打破。从GitHub复制源码到本地，执行make命令构建并运行服务。集成Claude, Cursor等客户端进行测试。3. 标准输入输出：适用于本地服务器，低延迟高效率。 SSE：支持实时数据流传输，适用于实时监控。HT

2025-07-25 22:43:55 674

原创 Model Control Protocol 使用MCP进行各种任务适配，调用工具和资源进行客户端开发

MCP 协议为大模型赋能提供了标准化的解决方案，可以创建各种工具扩展大模型能力；提供结构化资源供大模型访问；构建客户端实现大模型与工具的协同。MCP 通过其核心组件实现了标准化 LLM 上下文提供、保持数据安全性以及创建开放且可扩展的生态系统的核心价值主张。其设计原则强调安全性、可用性和灵活性的平衡。随着 MCP 的发展，这些核心组件可能会扩展和演变，但数据访问、操作能力和交互模式的结合这一基本范式将继续是 LLM 应用程序架构的基础。开发者掌握这些组件后，可创建功能强大、安全且用户友好的应用程序，充分利用

2025-07-22 22:02:31 833

原创【读点论文】YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

YOLOv13 通过超图高阶关联建模、全流程特征分发和轻量化设计，在传统 YOLO 的 “Backbone-Neck-Head” 框架基础上，引入了 (HyperACE) 机制和(FullPAD) 范式，结合深度可分离卷积实现轻量化设计，解决了现有模型仅能捕捉局部 pairwise 关联的局限，实现全局多对多高阶关联建模。提出一种基于超图的自适应相关性增强机制，自适应挖掘潜在的全局高阶相关性，实现基于相关性指导的多尺度特征融合与增强。相关性增强的特征通过所提出的全流水线聚集和分布范例分布在整个网络中，有效地

2025-07-20 17:41:28 1112

原创 Model Control Protocol 融合上下文信息，工具调用执行，赋予 LLM “短期记忆” 和 “环境感知能力”

随着 AI 技术的不断发展，MCP 有望在更多领域得到应用，如智能医疗、金融科技、自动驾驶等。在智能医疗领域，MCP 可以帮助整合各种医疗数据和工具，提高医疗诊断的准确性和效率；在金融科技领域，MCP 可以实现不同金融系统之间的集成和协同，提升金融服务的质量。MCP 可能会与新兴技术如区块链、物联网等进行融合。与区块链结合可以提高数据的安全性和可信度，与物联网结合可以实现对物理设备的智能控制和管理。随着开发者生态系统的不断壮大，社区将在 MCP 的发展中发挥越来越重要的作用。开发者可以通过社区贡献新的工具、

2025-07-16 15:00:55 924

原创 Model Control Protocol 一种开放的应用层协议，让大模型与工具能够协调配合起来，了解他的定义、定位、组成及实现机制...

MCP（Model Context Protocol，模型上下文协议）是一种开放协议，旨在实现大型语言模型（LLM）应用与外部数据源、工具和服务之间的无缝集成，类似于网络中的 HTTP 协议或邮件中的 SMTP 协议。MCP 协议通过标准化模型与外部资源的交互方式，提升 LLM 应用的功能性、灵活性和可扩展性。MCP 的核心是模型上下文，即 LLM 在运行过程中所需的所有外部信息和工具。MCP 通过定义标准化的接口和协议，使 LLM 能够动态访问和集成以下内容：外部数据源：如数据库、API、文档库等，

2025-07-15 17:18:39 886

原创【读点论文】LSNet: See Large, Focus Small感知与聚合范围分离，兼顾大视野信息与细节融合，计算复杂度线性于输入分辨率

本文借鉴人类 “先看整体、再盯细节” 的视觉习惯，设计了 “大核感知 + 小核聚合” 的融合方式：先用大尺寸的卷积核（比如 7×7）“扫描” 图像，捕捉大范围的上下文关系，比如一张照片中 “天空在上方、地面在下方” 这种整体布局，类似人类用 peripheral vision（ peripheral vision：外周视觉）快速掌握场景全貌。在大尺度信息的 “指导” 下，用小尺寸的卷积核（比如 3×3）重点融合局部相关的细节，比如根据 “天空在下” 的整体信息，聚焦融合 “云朵的边缘”“阳光的光斑” 这些小

2025-07-13 15:47:45 498

原创【读点论文】Mini-Monkey: Alleviating the Semantic Sawtooth Effect for MLLMs一种预处理方法保留高分辨率信息，换了一个更适配任务的多模态模型

在本研究中，我们介绍了一种互补图像金字塔(CIP ),旨在减轻多层线性模型的语义锯齿效应，从而提高其有效处理高分辨率图像的能力。CIP是即插即用的，可以低成本无缝集成到各种多模态大语言模型中。我们展示了所提出的CIP在不同架构、不同参数和不同使用配置下的有效性，从而带来一致的性能改进。此外，为了提高计算效率，我们提出了一种比例压缩机制(SCM)来压缩视觉标记。CIP不仅提高了一般的多模态理解性能，还显示了在文档理解任务中的持续改进。此外，我们的实验结果表明，配备CIP的2B参数MLLM甚至超过了更大的8B参

2025-07-10 13:54:57 1002

原创【读点论文】TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document专用OCR大模型，优化token采样策略

通过同时参与多个面向文本的任务，TextMonkey增强了其对空间关系的感知和理解，从而提高了可解释性并支持点击屏幕截图。通过将我们的模型与各种 lmm 进行比较，我们的模型在多个基准上取得了优异的结果。值得一提的是，我们还发现直接提高输入分辨率并不总能带来改善，尤其是对于小得多的图像。这强调了创建一种有效的方法来缩放尺寸变化剧烈的文档中的分辨率的必要性。采用零初始化的移位窗口注意力来帮助建立关系，同时使用滑动窗口来增加输入分辨率。提高分辨率的同时也增加了令牌的数量。通过分析令牌的冗余性，我们提出的令牌

2025-07-09 09:09:59 498

原创【读点论文】RAW-Adapter:Adapting Pre-trained Visual Model to Camera RAW Images优化ISP成像流程，两阶段适配深度学习任务的成像规则

ISP 本身的设计和design是为了满足人眼视觉更好的感知，传统的ISP算法每一个step往往都需要prior knowledge，比如白平衡前需要估计光源。每一家厂商的ISP也都有自己的特点，比如Sony和华为他们的自家ISP流程的CCM以及LUT参数肯定不同，同时每家的ISP基本都是黑盒，我们很难获取里面具体的step。*SP针对人眼设计的特性也导致了，这些ISP算法并不一定能很好的满足machine vision，尤其是在对于一些下游计算机视觉任务检测，分割的时候**，针对人眼设计的ISP并不一定能

2025-07-08 09:15:12 877

原创【读点论文】OCRBench v2: An Improved Benchmark for Evaluating LMMs多模态模型在OCR各项任务对比，识别优于专用小模型，但是严重缺乏定位能力

- 包含 23 个具体任务，覆盖 8 大核心能力（文本识别、定位、关系提取、数学计算等），任务数量是前一版本 OCRBench 的 4 倍。覆盖 31 种场景（如科学论文、收据、手写试卷），包含 10,000 个人工验证的问答对和 1,500 张手动标注的私有测试图像。采用 6 类评估指标（如 TEDS、IoU、F1 分数），兼顾结构相似性和语义准确性。与传统 OCR 模型（如 CRNN、ABCNet）相比，LMMs（如 Qwen2.5-VL、GPT-4o）在通用文本识别任务上表现更优。例如：Qwen2.5

2025-07-04 09:24:23 2350

原创【读点论文】Exposure-slot：Exposurecentric Representations Learning S-in-S Att 层次化槽注意力区域感知曝光校正，引入可学习Prompts

之前的方法如 Retinex 理论、多曝光校正模型（如 MSEC、LCDPNet）以及基于物理特性的特征分离（如频率、对比度等）。而本文的方法可能结合了 Slot Attention 机制，这属于深度学习中的注意力机制，特别是对象中心学习（OCL）的概念。提出了 Slot-in-Slot Attention 结构，这是对标准 Slot Attention 的扩展，采用层次化结构逐步聚类特征，同时引入可学习的提示（prompts）来适应不同的曝光条件。主要模块包括SPIM和SSAB，编码器-解码器结构

2025-07-03 09:23:58 1022

原创【读点论文】You Only Need 90K Parameters to Adapt Light解构ISP参数，结合局部像素细节与全局感知，进行色彩变换和γ矫正，处理低光照和过曝问题

我们提出了一种新颖的轻量级 Transformer 框架IAT，通过调整ISP相关的参数，以适应具有挑战性的光条件。尽管在几个真实世界的数据集上，无论是低级任务还是高级任务，IAT都有着优越的性能，但它非常轻，速度很快。轻量级和移动友好的IAT有可能成为计算机视觉社区的常设工具。分解 ISP 流水线，分为局部和全局分支，用注意力查询来调整参数，比如色彩校正、 gamma 校正。 IAT 有两个分支：局部分支和全局 ISP 分支。局部分支用像素级的调整，替换 Transformer 的注意力块为深度卷积，保持

2025-07-01 09:36:01 1002

原创【读点论文】Prototype Completion with Primitive Knowledge for Few-Shot Learning引入原始知识和高斯融合策略提升新类原型的表征能力

原型补全网络（ProtoComNet）,编码器 - 聚合器 - 解码器三组件，核心模块，用于利用原始知识补全新类原型，encoder和decoder压缩并重建原型，捕捉先验知识中的属性关系；aggregator`动态调整类别邻接矩阵，结合语义嵌入增强类别关联；reparameterize通过高斯噪声融合均值原型和补全原型，降低先验知识噪声的影响。关键的挑战是如何获得更具代表性的原型，因为新的类样本作为具有大方差的组传播。为了解决这个问题，**我们提出了一个原型完成网络，通过原始知识完成原型，并提出了一个基于

2025-06-24 14:16:23 862

原创【读点论文】Dissecting Out-of-Distribution Detection and Open-Set Recognition，分离语义偏移与协变量偏移，提供了可复现的实验框架

**OOD 与 OSR 的内在关联**：两者本质上处理不同类型的分布偏移（OOD 侧重协变量偏移，OSR 侧重语义偏移），但方法性能高度相关，可交叉应用。幅度敏感的评分规则（如 MLS、Energy）优于传统方法（如 MSP、ODIN），因其利用特征幅度差异，对分布偏移更鲁棒。OE 在小规模基准中表现优异，但依赖辅助数据与测试数据的分布重叠，大规模场景下泛化性不足。传统小规模基准未分离语义与协变量偏移，新提出的基准能更准确评估模型应对真实场景偏移的能力。OE 等依赖辅助数据的方法，**其性能取决于辅助数据与

2025-06-22 16:04:04 990

原创【读点论文】Rethinking Out-of-distribution Detection: Masked Image Modeling is All You Need通过生成任务来理解分类模式

这篇论文主要探讨了如何更好地检测图像中的 “异常样本”（即不属于已知数据分布的样本，简称 OOD）。传统方法通常通过分类任务来学习正常样本（ID）的特征，但这类方法容易让模型只记住表面特征，不是真正理解数据。MOOD 的核心突破在于将 OOD 检测从 “判别性任务” 重构为 “生成性任务”。通过掩码图像建模，模型不再记忆 “猫有胡须”，而是理解 “猫的头部结构应符合哺乳动物的对称性”。这种从局部到全局、从表面到本质的范式转变，为 OOD 检测开辟了新路径 ——真正的鲁棒性，源于对数据生成规律的深刻理解。

2025-06-21 16:11:42 641 1

原创【读点论文】PIP-Net Patch Based Intuitive Prototypes for Interpretable Image Classification通过两阶段训练学习补丁原型

模仿人类基于部件识别物体的方式，以可解释性为设计出发点构建图像分类器。利用自监督学习，在仅使用图像级标签且不依赖额外部件注释的情况下，自动识别语义有意义的部件作为原型。**通过设计特殊的损失函数，优化原型使其与人类视觉感知更好地相关，从而缩小语义差距**。现有方法仅在类别层面正则化可解释性，假设 “同类图像的部件原型相同”，但这一假设不成立。例如，在二分类任务（“太阳或狗” vs “无太阳和狗”）中，传统模型可能学习一个同时代表 “太阳” 和 “狗” 的原型，而人类直观上期望两个独立原型。构建一个**自监督

2025-06-19 13:33:45 1046

原创【读点论文】A Survey on Open-Set Image Recognition

OSR 的核心任务是在测试时同时完成已知类样本的分类和未知类样本的识别。与封闭集识别不同，OSR 假设测试集中存在训练时未接触过的新类别，要求模型具备 “拒绝未知” 的能力。例如，在自动驾驶场景中，模型不仅需识别已知的车辆、行人等类别，还需对未训练过的新型障碍物发出警告。鉴于近两三年来OSR方法的快速发展，本文旨在总结其最新进展。具体来说，我们首先介绍了一个新的分类，在此分类下，我们全面回顾了现有的基于DNN的OSR方法。然后，在标准数据集和交叉数据集下，比较了一些典型的和最新的OSR方法在粗粒度数据集和细

2025-06-14 15:01:50 967

原创【读点论文】Towards Open Set Deep Networks计算每个类别的激活向量均值，用Weibull分布拟合激活向量与均值距离，计算输入属于该类的离群概率，引入未知类的伪激活

开放集识别的核心问题是传统深度学习模型在封闭集下工作，无法处理未知类。论文提出的 OpenMax 方法通过引入新的层来估计未知类的概率。利用倒数第二层的激活向量，结合元识别和极值理论来估计未知概率。OpenMax 修改了 SoftMax 层，允许未知类的存在。数学原理部分可能涉及 Weibull 分布的拟合，用于计算输入属于已知类的概率，从而估计未知类的概率。涉及特征空间中的距离度量，而非像素空间，因为对抗样本在像素空间接近但特征空间可能远离。openmax是对传统softmax函数的一种改进。

2025-06-07 15:31:51 706

原创【读点论文】Joint Distribution Matters: Deep Brownian Distance Covariance for FSC捕捉复杂的依赖关系，联合分布与边缘分布进行图像表征

将图像通过卷积网络提取特征，然后将特征转换为BDC矩阵，作为图像的表示。BDC矩阵的计算基于特征向量的欧氏距离，然后通过特定的公式归一化。这样，两个图像的相似度可以通过它们的BDC矩阵的内积来计算。**BDC的定义涉及到联合特征函数和边缘特征函数的差值的平方积分，再除以一些归一化因子**。对于离散数据，可以用欧氏距离矩阵来近似。公式（4）中的迹运算可能将距离矩阵转换为标量，从而得到一个对称的矩阵，适合做相似度比较。通过统计依赖性来衡量图像之间的相似性，而不是简单的特征距离。因为BDC能够捕捉到更复杂的依赖关

2025-05-29 17:28:19 703

原创【读点论文】ViM: Out-Of-Distribution with Virtual-logit Matching从特征相对于主空间的残差生成代表虚拟 OOD 类的额外 logit

ViM 的核心目标是**同时利用特征空间的类无关残差信息（与具体类别无关的特征分布特性）和 logit 的类相关判别信息（模型对已知类别的分类置信度）**，解决传统 OOD 检测仅依赖单一信息（如仅用 logit 的最大置信度 MSP，或仅用特征残差）导致的脆弱性问题。**中间特征**：模型最后一层全连接层前的特征（如 ViT 的 CLS token 特征），记为`feature`（类无关的原始特征空间）。全连接层参数：分类头的权重`w`和偏置`b`（类相关的判别信息，决定 logit 的计算）。

2025-05-27 13:41:23 709

原创【读点论文】 MixNet: Toward Accurate Detection of Challenging Scene Text in the Wild获取高分辨率特征，基于中心线特征分离文本实例

MixNet 的核心算法逻辑围绕 “解决小文本检测难点” 展开，通过两大模块协同实现：通过跨尺度特征交换机制，将低分辨率的抗噪特征与高分辨率的细节特征融合，生成更鲁棒的高分辨率表示。具体而言，通过洗牌层将不同尺度的特征通道分割后重组，既保留了空间细节（高分辨率），又引入了深层语义信息（低分辨率），从而提升小文本的特征辨识度。利用文本的 1D 流形特性（即文本轮廓可近似为中心线的扩展），通过采样轮廓点和中心线点的特征，借助 Transformer 的自注意力机制捕捉全局几何关系。当相邻文本轮廓重叠时，中心线仍

2025-05-23 09:48:44 965

原创【读点论文】Enhancing STD with Realistic Text Image Synthesis Using Diffusion局部裁剪策略，实例过滤策略提升文本质量与一致性

获取高质量的训练数据耗时且成本高。现有方法通过合成文本图像作为补充资源，但合成数据在文本与背景的融合上仍有不足。为此，本文提出了一种基于扩散模型的文本生成器（DiffText），通过将前景文本与背景特征无缝融合，生成更真实的文本图像。DiffText利用自动编码器、文本编码器和去噪模块，结合局部裁剪和实例过滤策略，提升了文本的视觉连贯性和质量。实验表明，DiffText生成的文本图像在场景文本检测任务中显著优于其他合成数据，尤其在处理水平、旋转、弯曲和行级文本时表现出色。代码已开源，供进一步研究和应用。

2025-05-19 13:26:56 844

原创【读点论文】OPEN-SET RECOGNITION: A GOOD CLOSED-SET CLASSIFIER IS ALL YOU NEED?找个更好的闭集分类器，使用logits进行分类，有用？

本文探讨了开集识别（OSR）任务，提出了一种通过提升闭集分类器性能来增强OSR能力的方法。研究发现，闭集分类器的准确性与开放集性能高度相关，表明更好的闭集分类器能够更可靠地区分已知和未知类别。作者通过改进闭集训练策略，如更长的训练时间、更好的数据增强、标签平滑和余弦学习率调度，提升闭集分类器的准确性，并将开放集检测的评分规则从最大软max概率改为最大对数几率（MLS），以利用未归一化的原始输出信息。实验结果表明，这种简单的基线方法在许多OSR基准上达到了最先进的水平，甚至超越了复杂的OSR方法。

2025-05-16 15:46:20 915

原创【读点论文】Class Anchor Clustering A Loss for Distance-based OSR锚点损失约束类内紧凑性，Tuplet损失约束类间分离性。动态更新锚点提高输出质量

旨在解决开集识别中深度神经网络在处理未知类别时的问题。传统的开集分类器通过测量网络logit空间中的距离来区分已知和未知类别，但这种方法通常依赖于交叉熵损失训练的网络，无法保证已知类在logit空间中的紧密聚类。CAC损失通过显式地训练已知类别在logit空间中围绕锚定的类相关中心形成紧密的聚类，从而提高了开集分类器的性能。实验表明，CAC损失在多个标准基准数据集上实现了最先进的性能，特别是在TinyImageNet数据集上，AUROC提高了15.2%，同时保持了分类精度。此外，CAC损失结合了Anchor

2025-05-15 16:44:32 779

原创【读点论文】Deep Clustering for Unsupervised Learning of Visual Features聚类生成伪标签，伪标签指导网络学习更具判别力特征，左脚踩右脚

本文提出了DeepCluster，一种用于无监督视觉特征学习的深度聚类方法。该方法结合卷积神经网络（CNN）和标准聚类算法（如k-means），通过迭代进行特征聚类和网络参数更新，实现端到端的无监督训练。具体步骤包括：首先使用当前网络提取特征，通过k-means生成伪标签，然后利用这些伪标签更新网络参数。为避免平凡解，DeepCluster处理空簇和不平衡簇问题，如重新分配空簇中心、按簇大小加权损失函数。实验表明，DeepCluster在ImageNet和YFCC100M等大规模数据集上训练时，显著超越了现

2025-05-14 09:05:37 925

原创【读点论文】Nearest Neighbor Guidance for Out-of-Distribution Detection通过最近邻的特征相似性来引导分类器的置信度

核心目标是进行分布外样本（Out - of - Distribution, OOD）检测，不仅要对 ID 样本进行分类，更重要的是能够准确区分 ID 样本和 OOD 样本。同时，还可以进一步区分 near OOD（与 ID 分布较接近的 OOD 样本）和 far OOD（与 ID 分布差异较大的 OOD 样本）。结合了置信度和近邻信息。在训练阶段，使用训练数据的 logits 计算置信度，并将特征与置信度相乘，增强可靠样本的特征表示。在推理阶段，对测试样本计算置信度，并结合 k 近邻得分生成最终异常分数，以

2025-05-09 09:10:57 759

原创【读点论文】Energy-based Out-of-distribution Detection训练时通过辅助OOD数据微调模型，推理使用训练模型计算能量分数，替代softmax置信度进行OOD检测

确定输入是否为非分布(OOD)是在开放世界中安全部署机器学习模型的基本构件。然而，以前依赖于softmax置信度得分的方法会受到OOD数据的过度自信后验分布的影响。我们提出了一个统一的框架，OOD检测，使用能量评分。我们表明，与使用softmax评分的传统方法相比，能量评分可以更好地区分分布内和分布外样本。与softmax置信度得分不同，能量得分理论上与输入的概率密度一致，并且不太容易受到过度自信问题的影响。在此框架内，能量可以灵活地用作任何预训练神经分类器的评分函数以及可训练的成本函数，以明确地形成用于

2025-05-06 09:09:34 1250

原创【读点论文】Generalized Out-of-Distribution Detection: A Survey

在这个调查中，我们首先提出了一个统一的框架，称为广义OOD检测，它包含了上述五个问题，即AD，ND，OSR，OOD检测和OD。在我们的框架下，这五个问题可以看作特例或者子任务，更容易区分。尽管对相关领域进行了全面的调查，但对 OOD 检测方法的总结仍不完整，需要进一步的改进。本文特别指出了 OOD 检测领域最新技术发展的差距。它还提供了其他子任务的代表性方法的综合讨论，以及它们如何与 OOD 检测方法的发展相关和启发。调查的结论是确定公开的挑战和潜在的研究方向。

2025-04-25 10:33:45 1248

原创【读点论文】Mitigating Neural Network Overconfidence with Logit Norm 对分类特征层及输出归一化，对softmax温度调优

在开放世界中部署的现代神经网络经常与分布外(OOD)输入进行斗争，分布外(OOD)输入是指来自不同分布的样本，网络在训练期间没有接触过这些样本，因此不应该在测试时以高置信度进行预测。一个可靠的分类器不仅应该准确地分类已知的内部分布(ID)样本，而且还应该将任何OOD输入识别为“未知”。这提高了OOD检测的重要性，它确定输入是ID还是OOD，并允许模型在部署中采取预防措施。一种简单的解决方案使用最大软最大概率(MSP)——也称为软最大置信度——进行OOD检测。操作假设是OOD数据应该比ID数据触发相对较低的

2025-04-23 14:16:33 1040

原创【读点论文】Multi-Label Image Classification via Category Prototype Comp Learn通过组合分解多标签对象提升泛化能力，构建对象潜在关系

所提供的 GT 仅告知对象是否存在于图像中。没有给出诸如对象位置和属性的其他详细信息。这阻碍了模型学习可在对象检测任务中学习的区别特征提取器。尽管已经采用了一些措施，如注意机制，但分类性能仍然不能令人满意。组合性是真实世界应用中的一个常见特征，例如一个对象由多个属性组成，一个图像由多个对象组成。在计算机视觉中，这种合成性质已经在许多领域得到了应用，并在属性学习、零样本学习、图像检索等方面取得了巨大的成功。

2025-04-21 10:53:30 904

白水空空-爬虫概论.pptx

可用于技术分析讲解，爬虫知识了解，使用效果和使用流程的预览。一些基本配置与使用均有分享和讨论，积极与博主沟通，完善相关文档

2021-09-08

生成对抗网络与变种.pptx

生成对抗网络学习了解，分享

2021-12-12

deeplab系列，一种语义分割的选择.pptx

2021-12-17

yolov2&deepid.pptx

人脸检测出发

2022-01-07

自然语言处理，推荐系统答辩PPT.pptx

基于TF-IDF算法，结合simhash算法，中文分词等一些技术要点概述。应用了开源hanlp中文处理包

2021-09-11

2021-2022年的高精度模型，swin transformer.convnext等

目前Transformer应用到图像领域主要有两大挑战：视觉实体变化大，在不同场景下视觉Transformer性能未必很好图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大针对上述两个问题，我们提出了一种包含滑窗操作，具有层级设计的Swin Transformer。其中滑窗操作包括不重叠的local window，和重叠的cross-window。将注意力计算限制在一个窗口中，一方面能引入CNN卷积操作的局部性，另一方面能节省计算量。 ConvNeXt并没有特别复杂或者创新的结构，它的每一个网络细节都是已经在不止一个网络中被采用。而就是靠这些边角料的互相配合，却也达到了ImageNet Top-1的准确率。它涉及这些边角料的动机也非常简单：Transformer或者Swin-Transformer [3]怎么做，我也对应的调整，效果好就保留。当然这些边角料的摸索也是需要大量的实验数据支撑的，是一个耗时耗力耗资源的过程。通过对ConvNeXt的学习，我等调参侠不仅可以学习到诸多的炼丹经验，还可以一探其背后原理.

2023-02-04

轻量化混合（卷积和transformer）网络，发论文的热点

CNN的成功依赖于其两个固有的归纳偏置，即平移不变性和局部相关性，而视觉Transformer结构通常缺少这种特性，导致通常需要大量数据才能超越CNN的表现，CNN在小数据集上的表现通常比纯Transformer结构要好。 CNN感受野有限导致很难捕获全局信息，而Transformer可以捕获长距离依赖关系，因此ViT出现之后有许多工作尝试将CNN和Transformer结合，使得网络结构能够继承CNN和Transformer的优点，并且最大程度保留全局和局部特征。 Transformer是一种基于注意力的编码器-解码器结构，最初应用于自然语言处理领域，一些研究最近尝试将Transformer应用到计算机视觉领域。在Transformer应用到视觉之前，卷积神经网络是主要研究内容。受到自注意力在NLP领域的影响，一些基于CNN的结构尝试通过加入自注意力层捕获长距离依赖关系，也有另外一些工作直接尝试用自注意力模块替代卷积，但是纯注意力模块结构仍然没有最先进的CNN结构表现好。

2023-02-03

mobilenet系列V1-V3

MobileNet网络是由google团队在2017年提出的，专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络，在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%，但模型参数只有VGG的1/32) MobileNet v2网络是由google团队在cvpr2018年提出的，相比MobileNet v1网络，准确率更高，模型更小。 MobileNet v3发表于eccv2019年，该v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、新添加了SE模块，利用NAS（神经结构搜索）来搜索网络的配置和参数。

2022-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

白水空空-爬虫概论.pptx

生成对抗网络与变种.pptx

deeplab系列，一种语义分割的选择.pptx

yolov2&deepid.pptx

自然语言处理，推荐系统答辩PPT.pptx

2021-2022年的高精度模型，swin transformer.convnext等

轻量化混合（卷积和transformer）网络，发论文的热点

mobilenet系列V1-V3

shufflenetV1

图像分类方向的研究写作，中文学报写作格式，从数据集，经典网络角度分析。

百度发文，pp-LCnet网络，pp-PicoDet算法，pp-shitu应用

人脸识别综述及应用，了解一下

基于深度学习的图像语义分割分类(ISSbDL).xmind

卷积神经网络.pptx

分治法求众数.pptx

空空如也