WiSirius-CSDN博客

原创 LLM: langchain介绍与应用

摘要： LangChain是一个基于大型语言模型(LLM)的应用开发框架，能够处理复杂推理、外部数据集成、工具调用等任务。其核心组件包括模型接口、提示管理、数据索引、执行链、智能代理和对话记忆。通过加载文档、创建向量数据库和构建检索问答链，可实现知识问答功能。进阶应用可结合智能代理(Agent)和工具(Tool)实现更复杂的任务编排，如天气查询和网络搜索。LangChain简化了LLM应用的开发流程，适合构建问答系统、聊天机器人等内容生成工具。

2025-11-12 19:02:56 617

原创图像生成：Qwen-Image基本介绍

Qwen-Image在图像生成领域取得突破性进展，尤其在中文文本渲染上表现优异。其核心架构包含语言编码器Qwen2.5-VL、优化的VAE解码器和多模态扩散变换器(MMDiT)，通过创新的MSROPE位置编码实现文本与图像空间精准对齐。数据工程采用七阶段精细化处理流程，从256p到1328p分辨率层层筛选，确保数据质量与多样性。该模型不仅实现了精确的文字渲染，在通用图像生成任务中也达到SOTA水平，证明其对多模态内容的深刻理解能力。Qwen-Image的成功源于创新的架构设计和严谨的数据工程。

2025-09-05 17:02:03 1098

原创 LLM：MoE原理与实现探索

本文介绍了MoE（Mixture of Experts）在大型语言模型中的实现原理与架构设计，以Deepseek模型为例。MoE模块本质上是一个动态选择MLP层的机制，包含64个并行的专家(Expert)和一个路由门(Gate)。每个Expert由三个线性层组成，实现特征变换；Gate模块则通过softmax/sigmoid评分函数动态选择top-k专家进行处理。Deepseek的Transformer架构中，部分FFN层被替换为MoE模块，包含共享专家和路由机制。该设计通过动态激活不同专家提升模型容量，同

2025-08-11 20:59:51 965

原创 LLM：位置编码详解与实现

Transformer模型由于注意力机制的特性无法感知序列顺序，因此需要位置编码来弥补这一缺陷。本文介绍了两种主要的位置编码方式：绝对位置编码和相对位置编码。绝对位置编码通过正弦和余弦函数组合为每个位置生成唯一的高维向量，具有周期性、不同频率和任意长度处理的优势。相对位置编码则关注词与词之间的相对距离关系，通过可学习的嵌入表实现，能更好地捕捉局部依赖关系。两种编码方式各有特点：绝对编码计算简单但仅提供位置信息，相对编码表达能力强但计算成本较高。文章还提供了两种编码的PyTorch实现代码，展示了其具体应用方

2025-07-05 16:10:38 1202 1

原创 LLM：Scaling Law

各种LLM百花齐放，1B，2B，7B等等预训练模型，但是否思考过模型的大小和训练数据的关系。模型大小和训练数据对模型性能（即测试损失）的贡献是否相等？哪一个更重要？如果我想将测试损失降低10%，我应该增加模型大小还是训练数据？需要增加多少？

2025-06-04 18:44:49 1182

原创 LLM：decoder-only 思考

本文探讨了decoder-only模型成为主流架构的原因及其关键技术。重点分析了KV-cache机制如何通过缓存历史token的Key/Value显著提升推理效率。对比decoder-only与encoder-decoder架构，前者更适合自回归生成任务，后者更擅长并行处理。文章还区分了Causal LM和Prefix LM两种训练范式的attention mask差异，指出Prefix LM能更好地建模prompt-response关系。尽管decoder-only生态已趋成熟，但其他架构仍有探索空间，只

2025-05-29 14:53:14 1622

原创 LLM: 多模态LLM动态分辨率

本文分析了三种常见的VLLM（视觉语言模型）动态分辨率处理策略：Qwen VL、InternVL和Deepseek VL2。Qwen VL通过智能调整图像尺寸，确保其为28的倍数，同时保持宽高比，避免失真，并通过调整最大像素值来优化显存使用。InternVL则预设多种图像比例，选择最接近的比例进行resize，并按448的倍数进行patch切分，生成缩略图。Deepseek VL2借鉴了InternVL的思路，采用动态平铺策略处理不同长宽比的高分辨率图像，结合SigLIP和SAM-B进行特征提取。总体而言，

2025-05-20 14:37:32 1455

原创 LLM: 探索LLM视觉缺陷

在使用多模态大模型时候是否会发现大模型对图像的细节理解很差，比如让他数数，让他识别理解复杂图像，VLLM给出的答案往往有些不尽人意。其实本质来讲还是幻觉问题！！！

2025-04-15 20:43:51 737

原创 CV method： YOLOv12（v11 进化！）

YOLOv12 来了，同样由ultralytics公司出品（这更新速度可是够快的了）1）简单有效的区域注意力机制（area-attention）2）高效的聚合网络R-ELANYOLOv12总体来说改动不大，主要还是结构上的创新，其实注意力用在目标检测早就不是什么新鲜事了，主要YOLO12做到了使用它的同时依然保持实时目标检测（虽然感觉也没有太发挥注意力机制的潜力）。不过也是一次很棒的尝试，感觉YOLOv13很快就要来了，hhhhh。

2025-03-25 15:52:42 802

原创 LLM：强化学习DPO实现

Deepseek R1把强化学习又提升一个高度，最近也在尝试学习强化学习，在此记录一下DPO的学习过程与实现过程总的来说DPO是一种简单高效的强化学习方法，DPO 直接优化策略，使其输出结果更符合人类或模型的偏好，不再依赖于显式的奖励建模或复杂的策略梯度估计，训练更简单稳定。其主要思想是通过最大化策略对“更优偏好结果”与“较差结果”之间的概率比，从而优化策略。

2025-03-11 17:51:00 1649

原创 LLM：BERT or BART 之BART

这次轮到BART了（在了解这两个之前还真分不太清）BERT解读可以参考我之前的文章LLM：BERT or BART 之BERTBART（Bidirectional and Auto-Regressive Transformers）是一种用于文本生成、序列到序列转换和文本填充的深度学习模型，由 Facebook AI 在 2019 年提出。

2025-02-14 16:33:49 1849

原创 LLM：BERT or BART 之BERT

NLP选手对这两个应该很熟，最近因为多模态的发展，作为cv选手还是很有必要了解一下这两个模型。这两个模型也算是LLM的先驱了。本文将对BERT做一个基本的介绍BERT是一个encoder-only模型，为NLU任务开发，作为预训练模型可应用于多种语义理解任务上。我觉得其预训练方式绝对是里程碑式的操作，甚至CV后面的MAE也是借鉴它的想法本文对不熟悉BERT的人做个简单介绍，想了解BERT的代码实现和更多应用可以参考原文和开源代码。BERT在NLP领域有着变革性的地位，为后续的研究提供了新的思路！

2025-01-26 11:13:24 1423

原创 CV method： YOLOv11 (YOLOv8的进化之旅)

YOLO已经出到v11，感觉这两年yolo的更新速度有点频繁啊！本文主要分析一下v11的核心改动！v11与v8相同出自ultralytics，不过v10也是基于v8的代码架构构建的。这一次YOLOv11的变化相对于ultralytics公司的上一代作品YOLOv8变化不是很大，主要变化在于模型的结构设计。2）引入C2PSA；3）head修改；4）模型深度宽度变化；模型架构如下YOLO v11 终于引入了MHA，也算是一个重要里程碑了，新的结构设计也为YOLO未来发展奠定基础。

2025-01-15 18:55:17 2136

原创 AIGC：生成图像动力学

让静态的风景图能够动起来真的很有意思，不得不说CVPR2024 best paper实质名归，创意十足的一篇文章！！！自然界中的场景总是处于运动状态，如风、水流、呼吸等自然节律产生的振动。虽然人类可以轻松地解释或想象场景中的运动，但训练模型来学习或生成真实的场景运动却极其困难。在现实世界中观察到的运动是场景底层物理动力学的结果，例如，施加在物体上的力根据它们独特的物理属性（如质量、弹性等）做出响应，这些量很难大规模测量和捕捉。文章实现从单个静止图像生成逼真的长时间像素轨迹。

2024-12-26 20:09:31 1254

原创 LLM: AI Mathematical Olympiad (下)

i = idxbreaki += 1整个AI Mathematical Olympiad 项目大概就这样，其实真正核心的point就是数据的丰富多样性，在这个数据驱动的时代，丰富的数据比起模型设计更加重要。作者收集数据的想法和推理的策略都很值得学习。这个推理策略还是很受启发的。

2024-11-22 18:51:04 1145 1

原创 LLM: AI Mathematical Olympiad (上)

数学推理能力是人工智能的一个重要里程碑。数学推理是解决许多复杂问题的基础，从工程奇迹到复杂的金融模型。然而，目前人工智能在这一领域的能力有限。比赛包括110个类似中级高中数学挑战的问题。这些问题的Gemma 7B基准在公共和私人测试集中的得分是3/50。本次竞赛使用了一个由国际问题解决者团队创建的包含110个新颖数学问题的数据集，认识到需要一个透明和公平的评估框架。该数据集包含一系列难度等级，从简单的算术到代数思维和几何推理。

2024-11-14 20:44:30 3321

原创多模态：MLLM模态对齐方法

目前多模态模型席卷AI领域，最近也在做一些对齐的工作，记录一下目前主流的模态对齐方法。想详细了解的也可以看看下面的综述论文。最近的代表性MLLM分为四类：(1)将LLM作为多模态特征的直接处理器；(2)利用多模态感知器的MLLM来处理多模态特征；(3)将LLM作为处理多模态特征的工具；(4)在特定格式的数据上学习，赋予LLM适应额外模态的能力本文主要介绍目前几个完成交互的经典方法。

2024-10-14 14:45:14 4027

原创多模态：Florence2论文详解

Florence-2已经放出一段时间了，是一种新型的计算机视觉基础模型的统一、基于提示表征适用各种视觉任务或视觉语言任务。Florence-2设计是根据文本提示作为任务指令并以文本形式生成描述的结果，无论是描述、目标检测、grounding还是分割。最近在尝试用florence-2用于自己的任务，写个博客详细了解下florence2的具体结构和策略。多模态的出现打通了NLP和CV之间的壁垒，，先进模型展现出了对跨领域和任务的广泛知识的适应能力，只需简单的指令即可。

2024-09-29 14:08:50 2488 1

原创多模态：DetCLIPv3解析

目前多模态目标检测逐渐成为检测领域的主要发力方向，从最初的检测大模型grounding dino，到YOLO-world，本文记录最新的多模态目标检测论文DetCLIPv3现有的开放词汇表目标检测器（OVD）通常需要用户提供预定义的类别集，这在实际应用场景中限制了它们的使用。与现有方法不同，人类认知能够以分层的方式理解不同粒度的对象，这在当前的OVD系统中尚未实现。为了解决这些限制，作者提出了 DetCLIPv3，这是一种新型的目标检测器，能够扩展开放词汇表目标检测的范围。

2024-09-04 15:03:15 1627 1

原创多模态：Seed-story故事生成

伴随图像生成和文本生成的迅速发展，多模态故事生成以交错的方式生成叙事文本和生动形象为特征，已成为一种有价值的故事生成方式具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用，以及生成连贯的且上下文相关的长序列的能力。github:文章提出Seed-story，一种利用多模态大语言模型生成扩展的多模态故事。

2024-08-12 11:22:41 2137

原创 CV Method：YOLOv10 vs YOLOv8

YOLOv10已经开源一段时间了，经过我实际使用测试，也确实性能更好一些，YOLOv10基于v8代码框架改进，so 之前v8可用的大部分trick在v10上可直接代码移植过去（我自己尝试了下，大部分code不需要改动，直接实现装备继承）。本文主要比较一下v10 和 v8之间的区别和改进。yolov10最重要的point就是它的 NMS-free 检测功能，我们知道NMS是检测发展中重要的一环，yolov10通过one-to-onehead实现了不需要NFS的检测模型，这可以有效提升模型的执行速度。

2024-07-24 16:58:42 3668

原创多模态：Nougat详解

科学知识主要存储在书籍和科学期刊中，通常以PDF的形式。然而PDF格式会导致语义信息的损失，特别是对于数学表达式。文章提出Nougat，一种视觉transformer模型，它执行OCR任务，用于将科学文档处理成标记语言。Nougat尝试用一个端到端的方式来实现过去无数小模型+策略配合的结果。推理速度慢。虽然过去的pipeline设计多个模型，但每个模型都非常轻量化，组合起来的参数量甚至不到Nougat的1/10。定制化难。数据集构建成本高。（但是nougat的数据工程确实也很惊艳，非常值得学习！！

2024-07-09 18:34:22 2020

原创多模态-大模型：MLLM综述（适用初学）

paper近年来，以GPT-4V为代表的多模态大语言模型(Multimodal Large Language Model, MLLM)成为一个新兴的研究热点。它使用强大的大型语言模型(llm)作为大脑来执行多模态任务。其表现出令人惊讶的突发能力，如基于图像和无ocr的数学推理编写故事，在传统的多模态方法中很少见。文章跟踪并总结MLMM的最新进展。论文讨论关键技术和应用，包括多模态指令调优（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。

2024-06-24 17:49:42 3304

原创 CV Method：超全学习率策略总结

在深度学习中，学习率对模型的训练过程起着很重要的作用，影响着损失函数的变化速度。学习率越低，可以确保不会错过任何局部最小值，但是也意味着将花费更长的训练时间来进行收敛，特别是陷入局部最优的情况下。学习率越高，就容易错过全局最小值导致结果不收敛。一般来说，batch-size的大小一般与学习率的大小成正比。batch-size越大一般意味着算法收敛方向的置信度越大，也可以选择较大的学习率来加快收敛速度。而小的batch-size规律性较差，需要小的学习率保证不出错。

2024-06-06 17:26:43 1335

原创 CV Method：经典CNN Backbone总结

Backbone作为一切深度学习任务的基础，不论是理论还是实际应用都有重要的意义，本文针对经典Backbone进行总结，这些Backbone也是面试常见的问题，卷积网络主要以ResNet和其各种变体为主。本文主要介绍这些年比较经典的backbone的一些优势和特点，目前主流的backbone都以transformer为框架进行迭代，不过CNN的backbone是基础中的基础，能很好的帮助初学者理解相关理论和设计理念，也是必须要掌握的技术。

2024-05-30 17:36:13 1568

原创图像处理：文档矫正DocTr++

这段时间一直在搞文档矫正相关实验，阅读了大量相关论文，今天来记录一篇目前比较经典，实用性较好的方法，doctr++Doctr++除了提出一种新的architecture外，most importantly，提出了一种新的数据处理方式，解决了以前文档矫正只能处理带有边界信息的完整文档，文章通过数据处理定义了三种类型的训练数据。图1展示了三类常见的形变文档图像：(a) 包含完整文档边界，(b) 包含部分文档边界，(c ) 不包含文档边界。

2024-05-21 11:22:24 1630 1

原创图像处理：图像噪声添加

本文主要介绍几种添加图像噪声的方法，用于数据增强等操作。目前主流的噪声添加就这么几种，最常用的是高斯和泊松，在数据增强中还是有很大帮助的。

2024-05-08 16:40:58 9357 2

原创 CV method：最新Backbone---TransNeXt

近几年，Vision Transformer（ViT）已成为各种CV任务的热门Backbone架构，也算是Transformer在CV领域的经典架构。注意力机制可以有效利用全局信息，获取每个像素间的相关性。但也由于这一特性，其平方复杂度和高内存消耗而面临挑战，这限制了其在高分辨率图像特征上的应用。作者基于生物模仿视杆细胞视觉设计的Token混合器聚合注意力和一种具有门控通道注意力的通道混合器卷积GLU。另外作者也在新结构中设计了很多最新技术，将它们结合起来，提出TransNeXt。

2024-04-17 11:38:54 1877

原创图像生成：SD lora加载代码详解与实现

SD中lora的加载相信都不陌生，但是大家大多数都是利用SD webUI加载lora，本文主要梳理一下SD webUI中lora加载的代码逻辑。关于lora的原理，可以参考我之前的博客——图像生成：SD LoRA模型详解SD model结构一般分为几个部分，如下：SD webui使用pytorch lightning搭建，了解pl的同学可能知道，模型的相关配置一般都写在yaml文件中，因此其实可以根据yaml文件来判断模型的基本结构params:params:ddconfig:out_ch: 3。

2024-04-02 13:59:26 3604 3

原创多模态：Vary-toy

Vary的提出让大模型在OCR相关任务的能力有了很大突破，通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足，详情可参考我之前的文章——多模态：Vary。最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy，与Vary相比，Vary-toy除了小之外，还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费，以及吃不到SAM预训练优势的问题。

2024-03-19 15:00:16 1498

原创图像处理：文档图像矫正DocReal

文档图像矫正在图像处理领域属于相对冷门但是很有用的一个任务，这个任务的相关文章还是比较少的，DocReal是2024 WACV的最新文档矫正文章，结合了之前一些技术的亮点，还是值得一看的。DocReal目前code暂未开源这篇文章建议看两个文章作为背景会更容易理解：图像处理：文档图像矫正DDCP文档图像矫正是计算机视觉中的一项重要任务，具有许多实际应用。控制点法（如DDCP）由于其简单高效而备受关注。然而，由于背景噪声和多种变形类型，不准确的控制点预测可能导致不令人满意的性能。

2024-03-08 17:40:52 2715 1

原创 AIGC应用：Face Editor插件使用(面部优化)

之前的文章讲了Stable diffusion的基本使用技巧——SD基本使用技巧，接下来主要介绍一下相关插件的使用。本文介绍Face Editor插件的使用和内部理论逻辑，该插件能够很大程度缓解面部崩坏的问题。感兴趣的同学可以仔细看一下整个pipeline，作者的思路还是挺有意思的。Face Editor插件效果还是很好的，我自己使用的情况还是很好，尤其对于生成的全身图像，脸崩的情况比较多，修复后还是很好的！！！

2024-02-27 15:21:14 1647

原创多模态：YOLO-World详解

YOLO系列检测器已将自己确立为高效实用的工具。然而，它们依赖于预定义和训练的物体类别，这在开放场景中限制了它们的适用性。针对这一限制，作者引入了YOLO-World，这是一种创新的方法，通过视觉语言建模和在大型数据集上的预训练，将YOLO与开集检测能力相结合。具体来说，作者提出了一种新的可重参化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失，以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测具有很好的效果。

2024-02-26 18:47:45 9524 3

原创 AIGC应用：Stable diffusion webui基本使用技巧

Stable diffusion相信很多技术爱好者都了解，并且也尝试用过，目前在各路开源大佬的支持下，Stable diffusion的生图piepline越来越成熟，同时在各种新技术的加持下，可玩性越来越高。相比我以往的理论性文章，该系列文章主要讲解一下SD web ui的具体使用，以及一些拓展功能的使用，同时对自己应用SD有一个记录。SD webui目前的插件越来越多，玩法也越来越多，后面我会继续更新相关使用技巧和内容。

2024-02-20 16:27:26 2269 1

原创多模态：CLIP详解

2.8: 首先为今天还在努力学习的人们献上🎆CLIP目前无论在CV领域还是NLP领域都是人尽皆知的，该模型的发布直接带动了整个多模态领域的飞速发展。Open AI提出Contrastive Language-Image Pre-training (CLIP),突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练，并且可以直接迁移到Imagenet上，完全不需要图像标签微调即可实现zero-shot分类。

2024-02-08 13:07:12 8780

原创多模态：图像分割SAM

图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起，如目标检测，图像分割，这些技术引入图像生成相关技术的pipeline中，可以设计出更多创新性的算法。而这些基础技术也有了一些大模型，如目标检测的GroundingDINO，图像分割的SAM（segment anything model）。本文主要对SAM进行介绍。SAM是一个交互式分割模型，可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。整体上来说，SAM的模型结构说不上十分复杂，但其令人竟然的数据工程和训练方式实在让人赞叹。

2024-02-01 18:10:32 3415 3

空空如也

空空如也