自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 收藏
  • 关注

原创 图文跨模态融合基础 3:基于Windows和WSL构建LLaVA(视觉语言模型)研究环境

本文详细介绍了在WSL环境下部署LLaVA视觉语言模型的过程。主要步骤包括:1)下载官方代码并解压;2)创建专用Linux用户;3)安装CUDA 12.1和Python依赖;4)配置清华镜像源加速安装;5)验证Torch GPU可用性;6)安装模型依赖项;7)下载模型权重和视觉组件;8)修改配置文件路径;9)最终运行8bit量化测试。整个过程特别强调了网络问题的解决方案,包括手动下载代码和权重、使用镜像源加速,以及在WSL和Windows系统间的文件路径处理技巧。最后通过加载本地图片进行模型推理测试,验证部

2026-02-04 09:09:28 341

原创 基于Docker Desktop 和 Ubuntu 在 Windows上部署轻量化大模型(Qwen-LLM)

本文详细介绍了在本地部署Qwen大语言模型的完整流程。通过Docker容器化技术实现模型轻量化部署,利用WSL子系统在Windows环境下搭建Ubuntu环境,并针对常见安装问题提供解决方案。文章包含显存-模型适配对照表、模型下载与测试方法、Docker容器构建步骤,以及使用Tailscale实现内网穿透的分布式部署方案。整个过程涉及环境配置、模型量化、性能测试等关键环节,为开发者提供了从零开始部署大语言模型的实践指南。实验基于RTX4070和RTX5060Ti硬件平台验证可行性,同时指出本地模型的局限性。

2026-01-28 14:36:35 746

原创 图文跨模态融合基础 2 :LLM工程总览

本文探讨了大语言模型(LLM)工程化面临的核心挑战与应对策略。首先回顾了LLM的基本原理,包括词元生成、嵌入、掩码自注意力和前馈网络等关键步骤。随后重点分析了三大工程挑战:1)自然语言歧义问题,建议采用结构化输出、格式校验和版本控制等方案;2)成本与延迟优化,强调压缩无效输入和限制无用输出;3)提示与微调的选择策略,比较了提示调优和蒸馏调优等替代方案。最后讨论了任务组合性,包括代理、工具和控制流的设计,以及测试代理的方法。文章指出,LLM应用应被视为系统工程而非简单提示技巧,需要建立评估与迭代机制以适应快速

2026-01-26 17:59:29 605

原创 图文跨模态融合基础 1 :大语言模型(LLM)

LLM(Large Language Model)大型语言模型LLM)是一种利用自监督机器学习方法,基于海量文本训练而成的语言模型,专为自然语言处理任务而设计,尤其适用于语言生成。

2026-01-24 15:05:39 708 1

原创 瑞士卷与流形

摘要:高维数据常存在于低维流形中,其变化由少数内禀维度驱动。流形如瑞士卷虽在高维空间弯曲,但局部仍可用低维坐标描述。关键区别在于欧氏距离与测地距离:前者直接计算空间距离,后者基于流形内在结构。惠特尼嵌入定理表明,已知内禀维度可估计嵌入维度,进而通过测地距离计算标量曲率。黎曼度量通过定义切空间内积,将局部坐标转化为可计算的几何量,实现从局部到全局的长度与距离测量。

2026-01-19 09:26:28 452

原创 笔记:场景图生成综述(Scene Understanding)

本文对场景图生成(SGG)研究进行了系统综述。SGG任务旨在将图像/视频自动转换为结构化语义图,需准确识别物体及其关系。文章从特征表示和特征精炼两个维度分析了现有方法:特征表示整合外观、语义、空间等多模态信息;特征精炼通过消息传递、注意力机制等技术提升关系预测的准确性。同时探讨了2D/3D/时空场景图的差异,以及知识先验的运用方式。最后总结了当前数据集、评测指标及未来研究方向。该综述涵盖了138篇文献,为理解SGG研究进展提供了全面参考。

2026-01-13 16:43:01 685

原创 笔记:Contrastive Object-Aware Fusion

COFNet提出了一种面向RGB-Thermal多光谱目标检测的跨模态融合方法。该方法创新性地利用目标区域先验(由GT框构造的box-level mask)来引导跨模态注意力融合,使网络能够显式聚焦于目标区域而非背景干扰。通过对比学习将模态特征与mask特征在表示空间中对齐,该方法有效增强了目标响应和跨模态一致性。核心创新在于通过掩码block约束特征交互过程,缓解了跨模态不一致带来的伪响应问题。

2026-01-08 18:03:32 1054

原创 笔记:Cross Modal Fusion-Mamba

本笔记重点研究了MambaBlock网络结构。该方法通过独立的CNN金字塔结构处理RGB和红外(IR)输入,从第二层开始每层采样后接入MambaBlock进行特征交互。MambaBlock包含SSCS和DSSF两大模块,其中SSCS采用通道交换策略打破模态纯净性,DSSF则通过双分支状态空间建模实现跨模态融合。SSCS模块包含Vision State Space(VSS)块,通过深度可分离卷积和状态空间建模实现全局依赖关系捕捉。DSSF模块堆叠8次,少量、多次、逐步地让两种模态在状态空间里互相“影响”。

2026-01-08 09:40:06 647

原创 EndNote:如何按自己需求快速导出论文字段

摘要:本文介绍了使用EndNote进行文献导出的详细方法,包括基础导出、自定义输出样式和排序规则设置。针对科研人员批量处理文献的需求,重点讲解了如何创建自定义输出模板(包含标题、作者、摘要等字段)和设置按年份、标题排序的方法。文中提供了标准模板示例和添加序号等实用技巧,帮助用户高效整理文献,特别适合撰写综述时梳理文献发展脉络的需求。通过自定义输出样式,用户可以实现一键导出并翻译文献关键信息,大幅提升文献管理效率。

2025-11-26 21:59:53 793

原创 笔记:如何快速摘想要的论文

本文系统介绍了文献综述写作的完整流程。首先明确了综述写作的目的在于构建知识体系、了解领域现状和提炼创新点。详细阐述了从确定主题到观点凝练的写作框架,重点讲解了Pubmed和IEEEXplore两大数据库的文献检索方法,以及使用EndNote进行文献管理的具体步骤。特别针对计算机专业研究者,指出医学数据库的局限性,并提供了IEEEXplore的专业检索方案。文章强调文献分类整理的重要性,建议采用由新到旧的阅读顺序,通过标签化管理和主题归纳提升综述写作效率。

2025-11-25 19:50:45 696

原创 对IVIF深度学习的主流方法学习和理解

本文分析了基于深度学习的红外与可见光图像融合(IVIF)方法。首先提出了统一的IVIF框架,将其分解为7个核心环节:输入、预处理、特征提取、特征交互与融合、特征重构、监督策略和优化更新。基于此框架,将现有方法分为两类:框架家族(CNN、AE、GAN)和组件家族(注意力、状态空间、图结构、函数逼近)。框架家族可独立完成端到端融合流程,而组件家族主要用于增强特征交互能力。通过横向对比各家族在各个环节的特性,揭示了不同方法的本质区别与适用场景。最后通过实例展示框架组件的协同应用,为IVIF方法的设计和使用提供指导

2025-11-21 17:54:16 796

原创 阅读:基于深度学习的红外与可见光图像融合综述: 发展与展望

本文综述了基于深度学习的红外与可见光图像融合(IVIF)方法的研究进展。传统IVIF方法存在特征提取不足、融合规则复杂等问题。近年来,基于深度学习的方法主要包括:1)CNN方法通过卷积网络自动学习特征,具有端到端优势;2)自编码器方法通过编码-解码结构实现无监督训练;3)GAN方法利用对抗机制生成高质量融合图像;4)Transformer方法通过自注意力捕获全局依赖关系。各类方法在特征提取、融合规则和性能优化等方面不断创新,但仍面临计算复杂度高、训练不稳定等挑战。未来研究将趋向多模态融合、轻量化设计和可解释

2025-11-21 09:42:07 699

原创 阅读:基于深度学习的红外可见光图像融合综述

本文主要针对综述的IVIF方法进行了分类总结,但由于第一次整理,很多地方由于积累浅薄存在一定的问题,将会在后续的写作中持续完善。x。

2025-11-15 15:07:19 1063

原创 Yolo中的检测头

本文详细解析了YOLO目标检测模型中的检测头(Detect)组件。检测头负责将Backbone和Neck提取的多尺度特征(P3,P4,P5)转换为检测结果,主要完成两项核心任务:边界框预测和类别预测。检测头包含回归头和分类头两个部分,回归头通过DFL(Distribution Focal Loss)将边界框编码为离散分布再解码为连续坐标,分类头则预测目标类别概率。文章详细介绍了检测头的结构参数、中间通道设置、DFL解码原理,并阐述了从特征点到最终检测框的完整处理流程,包括分数阈值筛选和NMS去重等关键步骤。

2025-11-11 18:17:47 1454

原创 基于Yolo的图像识别中的特征融合

本文摘要:文章系统分析了YOLO网络中的特征融合技术,重点对比了单模态(RGB)与多模态(RGBT)融合的差异。在单模态YOLO中,特征融合通过Concat操作实现不同层次特征的拼接;而多模态融合需要处理RGB与红外等异构数据的对齐与互补,采用更复杂的CBLinear和CBFuse模块。研究以YOLOv11-RGBT项目为例,解析了其融合机制:CBLinear生成多尺度引导特征,CBFuse实现跨层级的特征选择与融合。文章指出多模态融合面临数据异构、分布差异等挑战,需通过投影、注意力等机制实现有效融合,为恶

2025-11-10 18:58:36 794

原创 理解Yolo网络运行规律并添加自制简易功能(以Yolo11为例)

本文介绍了修改YOLO底层代码添加功能的方法,主要包括以下内容: 回顾YOLO配置文件结构,包括default.yaml全局配置、botsort.yaml跟踪配置和yolo11.yaml模型结构定义。 解析YOLO代码运行流程,重点分析parse_model函数如何将yaml配置转换为PyTorch模型,包括通道计算、模块实例化等关键步骤。 演示如何添加自定义模块MyMP,需要在__init__.py中声明、在conv.py中实现,并在yaml配置中调用。 调试过程中遇到的问题及解决方法,如参数传递、模型缩

2025-10-28 20:25:48 1585

原创 笔记:对yolov8网络代码的学习

本文详细解析了YOLOv8的模型结构与实现细节。主要内容包括:1. 模型获取方式(下载完整代码或单独yaml文件);2. 网络结构总览,包含Backbone(CSPDarknet)、Neck(PAN-FPN)和Head(解耦检测头);3. Backbone部分详解,重点分析Conv、C2f和SPPF模块的作用及参数设置;4. Neck部分的特征融合机制,解释上下采样的实现原理;5. Head部分的检测头结构和工作流程。文章通过具体代码和参数说明,深入剖析了YOLOv8的网络设计思路,包括残差连接、特征融合和

2025-10-17 18:43:00 895

原创 基于pycharm和anaconda的yolo简单部署测试

本文介绍了YOLO目标检测系统的完整使用流程,包括环境配置、数据标注、模型训练和参数调优。主要内容包括:1)使用conda创建虚拟环境并配置CUDA和PyTorch;2)通过LabelMe进行数据标注并转换为YOLO格式;3)组织标准数据集结构并配置data.yaml文件;4)使用开源数据集进行模型训练,包括初始训练和继续训练;5)调整超参数优化模型性能。文章提供了详细的代码示例和注意事项,适合YOLO初学者快速上手目标检测任务。

2025-10-14 16:28:58 1228

原创 笔记:Mamba初了解

状态空间模型是一类建模序列的数学框架,来源于控制论/信号处理。

2025-09-30 18:00:17 882

原创 笔记:ReID 综述

【Xmind思维导图】行人重识别 https://ai.xmind.cn/share/tKN4Ny6MReID 全称行人重识别(P-edestrian Re-identification,ReID),其定义是利用算法,在图像库中找到要搜索的目标的技术,所以它是属于图像检索的一个子问题。上述为两种传统的分类方法。

2025-09-26 20:03:18 1535

原创 基于Docker Desktop和Windows的Milvus本地部署教程

随着人工智能与大数据应用的快速发展,向量数据库在图像检索、语义搜索、推荐系统等场景中发挥着越来越重要的作用。Milvus 作为当前最流行的开源向量数据库之一,能够高效地存储、索引和检索海量向量数据,并且具备良好的可扩展性与生态支持。对于希望在个人电脑上进行实验与开发的研究人员和开发者来说,本地快速搭建一个可用的 Milvus 环境至关重要。

2025-09-19 16:53:47 1843 2

原创 解决Docker Desktop 的 WSL2安装失败的问题

本文解决docker desktop 自动安装WSL时显示已禁止(403)的问题,单纯的使用管理员模式和其他指令是无法解决的。这是WSL的版本发布界面,找到对应Windows的x86安装包下载,下载完成后点击就可以自动安装。安装完后重启docker desktop,可以看到可以进行正常登陆了。

2025-09-19 14:47:12 303

原创 笔记:基于python和zilliz的Milvus学习和测试

摘要:本文介绍了向量数据库Milvus及其商业托管服务ZillizCloud。Milvus是开源的向量数据库,支持图像/文本/语音等向量数据的存储与检索,常用于相似度搜索、推荐系统等场景。ZillizCloud提供免费托管方案(5GB存储+2.5MCU算力),简化了Milvus的部署和使用流程。文章详细说明了ZillizCloud的注册、集群创建步骤,并提供了Python测试代码示例,包括数据插入、相似度搜索等基本操作模板。通过ZillizCloud,开发者可以快速搭建向量数据库测试环境,无需处理复杂的本地

2025-09-13 09:53:30 718

原创 笔记:深层卷积神经网络(CNN)中的有效感受野简单推导

本文探讨了深度卷积神经网络中的有效感受野问题。通过分析8×8图像经过三层3×3卷积核(步长1)处理的案例,推导出感受野计算公式:当卷积核尺寸为k且处理n层时,有效感受野大小为(k-1)×(n+1)+1。实验表明,三层3×3卷积后神经元的有效感受野扩展为7×7。文章还指出当步长不为1时需要引入更通用的计算公式,为理解深层卷积网络的感知机制提供了理论基础。

2025-09-03 20:30:36 456

原创 笔记:卷积神经网络(CNN)

1-7通过阐述定义,给出原理,8通过串联提出疑问,补全盲点的方式对整个卷积神经网络有了一个更细致的了解

2025-09-03 16:41:28 1277

原创 pycharm无法添加本地conda解释器/命令行激活conda时出现很多无关内容

本文主要解决以下两种问题:1.pycharm在添加本地非base环境时出现无法添加的情况,特征为:正在创建conda解释器--->弹出一个黑窗口又迅速关闭,最终无法添加成功。

2025-09-02 16:23:27 567

原创 在Anaconda中创建一个虚拟环境(非C盘向)

本文主要解决anaconda虚拟环境的创建和路径问题。

2025-09-02 14:55:53 635

原创 笔记:人工神经网络

由于MP神经元激活函数过于简单,非0即1,现代人工神经元采用了更有效的激活函数。多输入单输出的结构,其中x代表输入内容,w为权重,θ为阈值,b=-θ,激活函数。理论上,多层感知机可以表示计算机内部的复杂计算,但缺少有效的训练算法。单层感知机可以构造出简单逻辑门(与,或,与非),或非门需要两层。改进RELU函数,输入小于零时返回一个较小的负斜率值。优点:导数可直接用函数值计算,简单高效。简而言之:当输入之和大于阈值时,输出1,否则为0。输入特征向量,输出实例的类别(+1,-1)2.Tanh(双曲正切)函数。

2025-09-01 20:00:00 438

原创 基于Anacoda安装cuda和torch(GPU向)

在已经安装完anaconda并创建自己需要的虚拟环境下安装cuda和torch

2025-08-30 11:58:12 684 4

原创 JAVAEE:采用HTML和JavaScript实现几个基本的页面

简单使用HTML设计三个界面,学生信息,购物界面,实时计算界面

2023-09-16 16:35:28 554 1

原创 2023年JSCPC参赛经验贴

个人体验:由于本人之前考过csp所以对ubuntu的基本操作有所了解,但是在使用的过程中,我们全组都采用c++,先是试了所有的c++编译器都没有反应,包括提供的codeblocks等,最后只能采用Linux命令行输入指令编译和运行(这些指令会给你,不需要自己记住,但记住最好),这导致了我们没有调试的功能(不能打断点),因此所有的错误都要自己推理和完善。一般省内的学校会校内组织报名,会发通知,但是一般会在XCPC的训练群里发,因为很多比赛能拿奖不代表能玩转这个比赛,因此如果想报名应该留意通知,提前找好队友。

2023-06-30 14:04:53 1983

原创 MySQL:触发器、权限管理

下面是创建触发器的实例,每更新一次persons表的num字段后都要更新sales表对应的sum字段。其中,persons表结构、sales表结构以及persons表结构的内容如下所示,按照后面的具体要求完成操作。⑧使用newAdmin用户向person表中插入一条新记录,查看语句执行结果。⑦使用newAdmin用户查看test_db数据库中person表中的数据。⑨退出当前登录,使用root用户重新登录,收回newAdmin账户的权限。③创建新账户,用户名称为newAdmin,密码为pw123。

2023-05-19 16:51:49 1335

原创 MySQL:存储过程与函数、视图

学会函数,过程和视图

2023-05-12 16:45:18 1189 1

原创 MySQL:插入,更新与删除、索引

练习创建、删除索引

2023-05-04 18:43:40 1894

原创 Trie Tree(字典树)例题

字典树与其名字一样,用其查找就像查字典一样,如果我们查找一个字符串“abcd”,那它的运行模式大概可以这样理解:从根节点出发,如果根节点有为‘a’的子结点,则去其事先储存好的索引,并以‘a’作为根节点向下搜索,如果中途没有对应的子结点则自动停止,如果有则返回结果。经常被搜索引擎系统用于文本词频统计。因此,num数组的作用是用来搜索cnt中第i个出现字母的子结点是谁即子结点是第几个出现的字母,正如上面的例子,a结点有一个子结点是b,而b有两个子结点分别是b和d,d没有子结点,第二个b又有子结点a。

2023-04-25 17:11:50 505

原创 C++:用algorithm头文件的heap实现堆排序

注:vector的end()函数取的是最后一个元素的后一个位置的指针,因此操作上要注意书写方式,尤其是在用顺序迭代器进行逆序输出时。并且由基于vector的堆排序得知,堆排序的前两个参数取的是地址因此在基于数组的堆排序中前两个参数都应该是地址,另外结束位置应该是数组最后一个数字后面一个的地址,否则排序会忽略最后一个数,这一点和sort函数是一样的。

2023-04-24 21:22:31 239

原创 归并排序和逆序对个数问题

归并排序和用归并排序解决逆序对问题

2023-04-23 23:02:27 475

原创 最短路径Floyd与区间DP

简单对比常见的floyd和区间dp

2023-04-23 17:30:12 720

原创 MYSQL:查询数据

练习链接查询和嵌套查询

2023-04-19 19:45:43 1621

原创 MYSQL:数据类型与运算符、MySQL函数

然后,使用运算符对表tmp15中不同的字段进行运算,使用逻辑操作符对数据进行逻辑操作,使用位操作符对数据进行位操作。⑥对tmp15中的字符串数值字段note进行比较运算,判断表tmp15中note字段是否为空;⑤判断price值是否落在30~80区间,返回与70和30相比最大的值,判断price是否为IN列表(10,20,50,35)中的某个值。/*向tmp15插入note 为 “This is good”,price为50的元素*//*查询tmp15中所有元素(不是字段,而是赋值的元素)*/

2023-04-14 16:52:01 585

计算机组成原理:用logisim实现一些基本器件

1.1多数表决器 1.2二输入与或门 1.3多路选择器 1.4二路选择器和四路选择器 2.1三八译码器 2.2八三编码器 2.3全加器和加法器 2.4多路选择器 2.5汉明码校验

2023-05-12

2022全国大学生数学建模竞赛A题一等奖代码

A题:波浪能输出最大功率 数模国一

2022-12-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除