淬炼之火-CSDN博客

原创图文跨模态融合基础 3：基于Windows和WSL构建LLaVA（视觉语言模型）研究环境

本文详细介绍了在WSL环境下部署LLaVA视觉语言模型的过程。主要步骤包括：1)下载官方代码并解压；2)创建专用Linux用户；3)安装CUDA 12.1和Python依赖；4)配置清华镜像源加速安装；5)验证Torch GPU可用性；6)安装模型依赖项；7)下载模型权重和视觉组件；8)修改配置文件路径；9)最终运行8bit量化测试。整个过程特别强调了网络问题的解决方案，包括手动下载代码和权重、使用镜像源加速，以及在WSL和Windows系统间的文件路径处理技巧。最后通过加载本地图片进行模型推理测试，验证部

2026-02-04 09:09:28 341

原创基于Docker Desktop 和 Ubuntu 在 Windows上部署轻量化大模型（Qwen-LLM）

本文详细介绍了在本地部署Qwen大语言模型的完整流程。通过Docker容器化技术实现模型轻量化部署，利用WSL子系统在Windows环境下搭建Ubuntu环境，并针对常见安装问题提供解决方案。文章包含显存-模型适配对照表、模型下载与测试方法、Docker容器构建步骤，以及使用Tailscale实现内网穿透的分布式部署方案。整个过程涉及环境配置、模型量化、性能测试等关键环节，为开发者提供了从零开始部署大语言模型的实践指南。实验基于RTX4070和RTX5060Ti硬件平台验证可行性，同时指出本地模型的局限性。

2026-01-28 14:36:35 746

原创图文跨模态融合基础 2 ：LLM工程总览

本文探讨了大语言模型(LLM)工程化面临的核心挑战与应对策略。首先回顾了LLM的基本原理，包括词元生成、嵌入、掩码自注意力和前馈网络等关键步骤。随后重点分析了三大工程挑战：1)自然语言歧义问题，建议采用结构化输出、格式校验和版本控制等方案；2)成本与延迟优化，强调压缩无效输入和限制无用输出；3)提示与微调的选择策略，比较了提示调优和蒸馏调优等替代方案。最后讨论了任务组合性，包括代理、工具和控制流的设计，以及测试代理的方法。文章指出，LLM应用应被视为系统工程而非简单提示技巧，需要建立评估与迭代机制以适应快速

2026-01-26 17:59:29 605

原创图文跨模态融合基础 1 ：大语言模型（LLM）

LLM（Large Language Model）大型语言模型LLM）是一种利用自监督机器学习方法，基于海量文本训练而成的语言模型，专为自然语言处理任务而设计，尤其适用于语言生成。

2026-01-24 15:05:39 708 1

原创瑞士卷与流形

摘要：高维数据常存在于低维流形中，其变化由少数内禀维度驱动。流形如瑞士卷虽在高维空间弯曲，但局部仍可用低维坐标描述。关键区别在于欧氏距离与测地距离：前者直接计算空间距离，后者基于流形内在结构。惠特尼嵌入定理表明，已知内禀维度可估计嵌入维度，进而通过测地距离计算标量曲率。黎曼度量通过定义切空间内积，将局部坐标转化为可计算的几何量，实现从局部到全局的长度与距离测量。

2026-01-19 09:26:28 452

原创笔记：场景图生成综述（Scene Understanding）

本文对场景图生成(SGG)研究进行了系统综述。SGG任务旨在将图像/视频自动转换为结构化语义图，需准确识别物体及其关系。文章从特征表示和特征精炼两个维度分析了现有方法：特征表示整合外观、语义、空间等多模态信息；特征精炼通过消息传递、注意力机制等技术提升关系预测的准确性。同时探讨了2D/3D/时空场景图的差异，以及知识先验的运用方式。最后总结了当前数据集、评测指标及未来研究方向。该综述涵盖了138篇文献，为理解SGG研究进展提供了全面参考。

2026-01-13 16:43:01 685

原创笔记：Contrastive Object-Aware Fusion

COFNet提出了一种面向RGB-Thermal多光谱目标检测的跨模态融合方法。该方法创新性地利用目标区域先验（由GT框构造的box-level mask）来引导跨模态注意力融合，使网络能够显式聚焦于目标区域而非背景干扰。通过对比学习将模态特征与mask特征在表示空间中对齐，该方法有效增强了目标响应和跨模态一致性。核心创新在于通过掩码block约束特征交互过程，缓解了跨模态不一致带来的伪响应问题。

2026-01-08 18:03:32 1054

原创笔记：Cross Modal Fusion-Mamba

本笔记重点研究了MambaBlock网络结构。该方法通过独立的CNN金字塔结构处理RGB和红外(IR)输入，从第二层开始每层采样后接入MambaBlock进行特征交互。MambaBlock包含SSCS和DSSF两大模块，其中SSCS采用通道交换策略打破模态纯净性，DSSF则通过双分支状态空间建模实现跨模态融合。SSCS模块包含Vision State Space(VSS)块，通过深度可分离卷积和状态空间建模实现全局依赖关系捕捉。DSSF模块堆叠8次，少量、多次、逐步地让两种模态在状态空间里互相“影响”。

2026-01-08 09:40:06 647

原创 EndNote：如何按自己需求快速导出论文字段

摘要：本文介绍了使用EndNote进行文献导出的详细方法，包括基础导出、自定义输出样式和排序规则设置。针对科研人员批量处理文献的需求，重点讲解了如何创建自定义输出模板（包含标题、作者、摘要等字段）和设置按年份、标题排序的方法。文中提供了标准模板示例和添加序号等实用技巧，帮助用户高效整理文献，特别适合撰写综述时梳理文献发展脉络的需求。通过自定义输出样式，用户可以实现一键导出并翻译文献关键信息，大幅提升文献管理效率。

2025-11-26 21:59:53 793

原创笔记：如何快速摘想要的论文

本文系统介绍了文献综述写作的完整流程。首先明确了综述写作的目的在于构建知识体系、了解领域现状和提炼创新点。详细阐述了从确定主题到观点凝练的写作框架，重点讲解了Pubmed和IEEEXplore两大数据库的文献检索方法，以及使用EndNote进行文献管理的具体步骤。特别针对计算机专业研究者，指出医学数据库的局限性，并提供了IEEEXplore的专业检索方案。文章强调文献分类整理的重要性，建议采用由新到旧的阅读顺序，通过标签化管理和主题归纳提升综述写作效率。

2025-11-25 19:50:45 696

原创对IVIF深度学习的主流方法学习和理解

本文分析了基于深度学习的红外与可见光图像融合(IVIF)方法。首先提出了统一的IVIF框架，将其分解为7个核心环节：输入、预处理、特征提取、特征交互与融合、特征重构、监督策略和优化更新。基于此框架，将现有方法分为两类：框架家族（CNN、AE、GAN）和组件家族（注意力、状态空间、图结构、函数逼近）。框架家族可独立完成端到端融合流程，而组件家族主要用于增强特征交互能力。通过横向对比各家族在各个环节的特性，揭示了不同方法的本质区别与适用场景。最后通过实例展示框架组件的协同应用，为IVIF方法的设计和使用提供指导

2025-11-21 17:54:16 796

原创阅读：基于深度学习的红外与可见光图像融合综述: 发展与展望

本文综述了基于深度学习的红外与可见光图像融合(IVIF)方法的研究进展。传统IVIF方法存在特征提取不足、融合规则复杂等问题。近年来，基于深度学习的方法主要包括：1)CNN方法通过卷积网络自动学习特征，具有端到端优势；2)自编码器方法通过编码-解码结构实现无监督训练；3)GAN方法利用对抗机制生成高质量融合图像；4)Transformer方法通过自注意力捕获全局依赖关系。各类方法在特征提取、融合规则和性能优化等方面不断创新，但仍面临计算复杂度高、训练不稳定等挑战。未来研究将趋向多模态融合、轻量化设计和可解释

2025-11-21 09:42:07 699

原创阅读：基于深度学习的红外可见光图像融合综述

本文主要针对综述的IVIF方法进行了分类总结，但由于第一次整理，很多地方由于积累浅薄存在一定的问题，将会在后续的写作中持续完善。x。

2025-11-15 15:07:19 1063

原创 Yolo中的检测头

本文详细解析了YOLO目标检测模型中的检测头(Detect)组件。检测头负责将Backbone和Neck提取的多尺度特征(P3,P4,P5)转换为检测结果，主要完成两项核心任务：边界框预测和类别预测。检测头包含回归头和分类头两个部分，回归头通过DFL(Distribution Focal Loss)将边界框编码为离散分布再解码为连续坐标，分类头则预测目标类别概率。文章详细介绍了检测头的结构参数、中间通道设置、DFL解码原理，并阐述了从特征点到最终检测框的完整处理流程，包括分数阈值筛选和NMS去重等关键步骤。

2025-11-11 18:17:47 1454

原创基于Yolo的图像识别中的特征融合

本文摘要：文章系统分析了YOLO网络中的特征融合技术，重点对比了单模态（RGB）与多模态（RGBT）融合的差异。在单模态YOLO中，特征融合通过Concat操作实现不同层次特征的拼接；而多模态融合需要处理RGB与红外等异构数据的对齐与互补，采用更复杂的CBLinear和CBFuse模块。研究以YOLOv11-RGBT项目为例，解析了其融合机制：CBLinear生成多尺度引导特征，CBFuse实现跨层级的特征选择与融合。文章指出多模态融合面临数据异构、分布差异等挑战，需通过投影、注意力等机制实现有效融合，为恶

2025-11-10 18:58:36 794

原创理解Yolo网络运行规律并添加自制简易功能（以Yolo11为例）

本文介绍了修改YOLO底层代码添加功能的方法，主要包括以下内容：回顾YOLO配置文件结构，包括default.yaml全局配置、botsort.yaml跟踪配置和yolo11.yaml模型结构定义。解析YOLO代码运行流程，重点分析parse_model函数如何将yaml配置转换为PyTorch模型，包括通道计算、模块实例化等关键步骤。演示如何添加自定义模块MyMP，需要在__init__.py中声明、在conv.py中实现，并在yaml配置中调用。调试过程中遇到的问题及解决方法，如参数传递、模型缩

2025-10-28 20:25:48 1585

原创笔记：对yolov8网络代码的学习

本文详细解析了YOLOv8的模型结构与实现细节。主要内容包括：1. 模型获取方式（下载完整代码或单独yaml文件）；2. 网络结构总览，包含Backbone（CSPDarknet）、Neck（PAN-FPN）和Head（解耦检测头）；3. Backbone部分详解，重点分析Conv、C2f和SPPF模块的作用及参数设置；4. Neck部分的特征融合机制，解释上下采样的实现原理；5. Head部分的检测头结构和工作流程。文章通过具体代码和参数说明，深入剖析了YOLOv8的网络设计思路，包括残差连接、特征融合和

2025-10-17 18:43:00 895

原创基于pycharm和anaconda的yolo简单部署测试

本文介绍了YOLO目标检测系统的完整使用流程，包括环境配置、数据标注、模型训练和参数调优。主要内容包括：1）使用conda创建虚拟环境并配置CUDA和PyTorch；2）通过LabelMe进行数据标注并转换为YOLO格式；3）组织标准数据集结构并配置data.yaml文件；4）使用开源数据集进行模型训练，包括初始训练和继续训练；5）调整超参数优化模型性能。文章提供了详细的代码示例和注意事项，适合YOLO初学者快速上手目标检测任务。

2025-10-14 16:28:58 1228

原创笔记：Mamba初了解

状态空间模型是一类建模序列的数学框架，来源于控制论/信号处理。

2025-09-30 18:00:17 882

原创笔记：ReID 综述

【Xmind思维导图】行人重识别 https://ai.xmind.cn/share/tKN4Ny6MReID 全称行人重识别（P-edestrian Re-identification，ReID），其定义是利用算法，在图像库中找到要搜索的目标的技术，所以它是属于图像检索的一个子问题。上述为两种传统的分类方法。

2025-09-26 20:03:18 1535

原创基于Docker Desktop和Windows的Milvus本地部署教程

随着人工智能与大数据应用的快速发展，向量数据库在图像检索、语义搜索、推荐系统等场景中发挥着越来越重要的作用。Milvus 作为当前最流行的开源向量数据库之一，能够高效地存储、索引和检索海量向量数据，并且具备良好的可扩展性与生态支持。对于希望在个人电脑上进行实验与开发的研究人员和开发者来说，本地快速搭建一个可用的 Milvus 环境至关重要。

2025-09-19 16:53:47 1843 2

原创解决Docker Desktop 的 WSL2安装失败的问题

本文解决docker desktop 自动安装WSL时显示已禁止（403）的问题，单纯的使用管理员模式和其他指令是无法解决的。这是WSL的版本发布界面，找到对应Windows的x86安装包下载，下载完成后点击就可以自动安装。安装完后重启docker desktop，可以看到可以进行正常登陆了。

2025-09-19 14:47:12 303

原创笔记：基于python和zilliz的Milvus学习和测试

摘要：本文介绍了向量数据库Milvus及其商业托管服务ZillizCloud。Milvus是开源的向量数据库，支持图像/文本/语音等向量数据的存储与检索，常用于相似度搜索、推荐系统等场景。ZillizCloud提供免费托管方案（5GB存储+2.5MCU算力），简化了Milvus的部署和使用流程。文章详细说明了ZillizCloud的注册、集群创建步骤，并提供了Python测试代码示例，包括数据插入、相似度搜索等基本操作模板。通过ZillizCloud，开发者可以快速搭建向量数据库测试环境，无需处理复杂的本地

2025-09-13 09:53:30 718

原创笔记：深层卷积神经网络（CNN）中的有效感受野简单推导

本文探讨了深度卷积神经网络中的有效感受野问题。通过分析8×8图像经过三层3×3卷积核（步长1）处理的案例，推导出感受野计算公式：当卷积核尺寸为k且处理n层时，有效感受野大小为(k-1)×(n+1)+1。实验表明，三层3×3卷积后神经元的有效感受野扩展为7×7。文章还指出当步长不为1时需要引入更通用的计算公式，为理解深层卷积网络的感知机制提供了理论基础。

2025-09-03 20:30:36 456

原创笔记：卷积神经网络（CNN)

1-7通过阐述定义，给出原理，8通过串联提出疑问，补全盲点的方式对整个卷积神经网络有了一个更细致的了解

2025-09-03 16:41:28 1277

原创 pycharm无法添加本地conda解释器/命令行激活conda时出现很多无关内容

本文主要解决以下两种问题：1.pycharm在添加本地非base环境时出现无法添加的情况，特征为：正在创建conda解释器--->弹出一个黑窗口又迅速关闭，最终无法添加成功。

2025-09-02 16:23:27 567

原创在Anaconda中创建一个虚拟环境（非C盘向）

本文主要解决anaconda虚拟环境的创建和路径问题。

2025-09-02 14:55:53 635

原创笔记：人工神经网络

由于MP神经元激活函数过于简单，非0即1，现代人工神经元采用了更有效的激活函数。多输入单输出的结构，其中x代表输入内容，w为权重，θ为阈值，b=-θ，激活函数。理论上，多层感知机可以表示计算机内部的复杂计算，但缺少有效的训练算法。单层感知机可以构造出简单逻辑门（与，或，与非），或非门需要两层。改进RELU函数，输入小于零时返回一个较小的负斜率值。优点：导数可直接用函数值计算，简单高效。简而言之：当输入之和大于阈值时，输出1，否则为0。输入特征向量，输出实例的类别（+1，-1）2.Tanh（双曲正切）函数。

2025-09-01 20:00:00 438

原创基于Anacoda安装cuda和torch（GPU向）

在已经安装完anaconda并创建自己需要的虚拟环境下安装cuda和torch

2025-08-30 11:58:12 684 4

原创 JAVAEE：采用HTML和JavaScript实现几个基本的页面

简单使用HTML设计三个界面，学生信息，购物界面，实时计算界面

2023-09-16 16:35:28 554 1

原创 2023年JSCPC参赛经验贴

个人体验：由于本人之前考过csp所以对ubuntu的基本操作有所了解，但是在使用的过程中，我们全组都采用c++，先是试了所有的c++编译器都没有反应，包括提供的codeblocks等，最后只能采用Linux命令行输入指令编译和运行（这些指令会给你，不需要自己记住，但记住最好），这导致了我们没有调试的功能（不能打断点），因此所有的错误都要自己推理和完善。一般省内的学校会校内组织报名，会发通知，但是一般会在XCPC的训练群里发，因为很多比赛能拿奖不代表能玩转这个比赛，因此如果想报名应该留意通知，提前找好队友。

2023-06-30 14:04:53 1983

原创 MySQL:触发器、权限管理

下面是创建触发器的实例，每更新一次persons表的num字段后都要更新sales表对应的sum字段。其中，persons表结构、sales表结构以及persons表结构的内容如下所示，按照后面的具体要求完成操作。⑧使用newAdmin用户向person表中插入一条新记录，查看语句执行结果。⑦使用newAdmin用户查看test_db数据库中person表中的数据。⑨退出当前登录，使用root用户重新登录，收回newAdmin账户的权限。③创建新账户，用户名称为newAdmin，密码为pw123。

2023-05-19 16:51:49 1335

计算机组成原理：用logisim实现一些基本器件

2022全国大学生数学建模竞赛A题一等奖代码

空空如也