自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 【多模态学习】Q&A7: GRPO算法?KL散度指的是什么?什么叫做长思维连冷启动?模型退火是什么意思?

GRPO是当前大语言模型(LLM)训练领域的核心算法之一,理解它对于理解如何用强化学习对齐大模型至关重要。GRPO是一种强大且实用的强化学习算法,它通过直接利用任务相关的、可计算的评估指标结合KL散度正则化,巧妙地省去了RLHF中训练奖励模型的复杂步骤。这使得利用强化学习对齐大语言模型的过程变得更加简单、经济和稳定,特别在代码生成等有明确客观评价标准的领域显示出巨大潜力。简化流程、提升效率、增强稳定性。

2025-10-08 23:53:33 584

原创 【多模态学习】Q&A6: 什么是MOE架构?Router Z Loss函数是指什么?

中文可译为“混合专家模型”,是一种将一个大任务分解,并由多个“专家”(子模型)共同协作解决的神经网络架构。“分而治之”—— 对于不同的输入,由一个“门控网络”来决定激活哪些(或哪个)“专家网络”来进行处理,从而集合众多“专家”的专长,高效地解决复杂问题。特性描述核心思想分而治之,由门控网络动态选择专家处理输入关键组件专家网络(多个子模型)、门控网络(路由器)核心机制稀疏激活:对每个输入,只激活Top-K个专家最大优势以近乎不变的计算成本,极大地增加模型总参数量,提升性能主要挑战。

2025-10-08 22:56:51 742

原创 【多模态学习】Q&A5: continue-training和fine-tuning的区别?因果掩码的作用?SFT的作用?

当你希望模型掌握一个新领域的新知识时,使用。当你希望模型用已有知识执行一个新任务或遵循新指令时,使用。理解二者的区别,能帮助你更好地设计训练流程,高效地利用计算资源,从而打造出更强大的AI应用。因果掩码(Causal Mask),也称为自回归掩码(Autoregressive Mask)或解码器掩码(Decoder Mask),是一种在Transformer模型(尤其是GPT等自回归模型)中使用的注意力掩码技术。它的核心目的。

2025-09-17 19:14:15 1012

原创 【多模态学习】Q&A4:什么是LLM pre_tranining?什么是teacher-forcing?交叉熵损失的优劣势?continue pre-training和pre-training的区别?

目的:让模型从海量无标注文本中学习通用的语言表示能力,为下游任务(如问答、翻译)提供基础。类比:类似学生通过“广泛阅读”积累语言和常识,再针对具体考试(下游任务)专项练习。LLM预训练是通过无监督学习从文本中提取通用语言知识的过程,其核心是利用Transformer架构和海量数据学习词汇、语法和语义的深层模式。这一阶段的高成本投入(数据+算力)是模型具备强大泛化能力的基础,后续可通过微调或提示工程快速适配具体应用。

2025-09-08 00:37:50 1036

原创 【多模态学习】Q&A3:FFN的作用?Embedding生成方法的BERT和Word2Vec?非线性引入的作用?

组件角色功能通信层让序列中的所有token相互交流,整合全局上下文信息。FFN加工层对每个token的已有信息进行非线性变换、深度提炼和知识存储。Attention:”大家好,我刚刚听了所有人的发言,这是我的总结。Add & Norm:”好了,我把这个总结记下来,并规范化一下。FFN:”现在,让我独自基于这个总结,进行一番深入的思考和创新,得出我的最终结论。Add & Norm:”最终结论出炉,准备传递给下一层。

2025-09-07 18:11:23 921

原创 【多模态学习】Q&A2:Tokenize和Embedding?BPE算法?交叉熵损失函数?

BPE是一种巧妙的数据压缩技术在NLP中的应用。它通过统计和迭代合并,找到了词汇表示的最佳平衡点,使其成为支撑现代大语言模型处理海量词汇的基石技术。理解了BPE,就理解了为什么GPT等模型能如此流畅地生成和理解它们从未“见过”的单词。方面解释是什么衡量模型预测概率分布与真实分布之间差异的函数。在LLM中的作用作为训练阶段的损失函数,指导模型参数更新的方向。核心计算L−log⁡ptargetL−logptarget​,即目标词预测概率的负对数。为何有效。

2025-09-07 16:35:08 739

原创 【多模态学习】Q&A:QK点乘?self-attention和cross-attention?Transformer的优势劣势?

QK点乘通过内积的几何性质,高效地衡量了Query和Key之间的方向相似性,从而决定了注意力的分配。这种设计平衡了数学合理性、计算效率和实际性能,是Transformer能够捕捉长距离依赖关系的关键。是序列的“自我反思”,用于内部关系建模;是序列的“对外查询”,用于跨序列信息融合。两者结合使Transformer既能处理单序列任务(如文本分类),也能处理复杂跨模态或Seq2Seq任务(如机器翻译、图文生成)。单向生成任务→ 纯解码器(掩码Self-Attention)双向理解+生成任务。

2025-09-07 14:04:35 760

原创 多模态学习(三)—— ROPE位置编码:从理论到实践

在理解ROPE之前,我们需要先回顾传统Transformer的运作机制:SNwii1NSN​wi​i1N​”就是一个输入序列。之后需要对该序列进行转换,转换为embedding向量,这是因为神经网络不能直接处理文字,只能处理数字。这里我们取“求关注”这三个字,假设这三个字的embedding分别为:我们就可以针对这三个字计算注意力分数,attention score,也就是α\alphaα,这里的计算公式为AttentionQKVs。

2025-05-17 20:53:47 1028

原创 多模态学习( 二 )——Token与Embedding的区别:从文本到向量空间的旅程

在自然语言处理(NLP)中,Token和Embedding是两个核心概念,分别扮演不同的角色。Token是文本分割后的最小单位,将人类可读的文本转换为模型可处理的离散符号,如单词或子词。它本身是符号,没有数值意义,但通过分词策略(如单词级或子词级)为模型提供输入基础。Embedding则是将Token映射到连续向量空间的稠密向量,赋予符号数学意义,使模型能够计算Token之间的语义关系。Embedding可以是静态的(如Word2Vec)或动态的(如BERT),后者会根据上下文生成不同的向量。Token和E

2025-05-17 12:04:18 681

原创 多模态学习(一)——从 Image-Text Pair 到 Instruction-Following 格式

从 image-text pair 到 instruction-following 格式的转化是多模态指令微调的关键步骤。用预设的 Prompt 模板将原始描述性文本转化为任务指令,让模型学会“根据指令+图像”生成回答。通过这种方式,我们可以大幅扩展多模态模型在图像理解、对话和问答等任务中的能力。

2025-05-07 11:26:47 1040

原创 YOLO系列笔记(十八)—— YOLOv1和YOLOv2总结与对比

在ImageNet上预训练Darknet-19,输入尺寸为 (224 \times 224)。调整输入尺寸为 (448 \times 448),在ImageNet上finetune分类模型。修改分类模型为检测模型,并在检测数据集上finetune,增加新的卷积层和passthrough层,调整输出channels数以适应目标检测任务。通过这三个阶段,YOLOv2模型能够有效地进行分类和检测任务,适应不同尺度和长宽比的物体,提高检测精度和速度。

2024-06-30 11:41:34 1419

原创 深度学习常见概念解释(四)——损失函数定义,作用与种类(附公式和代码)

在机器学习和深度学习中,损失函数(Loss Function)起着至关重要的作用。它是模型优化过程中不可或缺的一部分,用于衡量模型预测值与真实值之间的差异。选择合适的损失函数不仅可以帮助模型更好地拟合数据,还能反映任务的特性,提高模型的性能和鲁棒性。本文将详细介绍损失函数的定义、作用及常见种类,并通过具体的示例代码展示如何在实际应用中使用这些损失函数。损失函数(loss function)是在机器学习和深度学习中用来衡量模型预测值与真实值之间差异的函数。

2024-06-23 08:45:29 1917

原创 深度学习常见概念解释(三)——激活函数定义,作用与种类(附公式,求导,图像和代码)

在深度学习中,激活函数是神经网络中的一个关键组件,起着引入非线性因素的作用,从而增加神经网络的表达能力和拟合复杂函数的能力。在神经网络中,每个神经元接收来自上一层神经元的输入,并对这些输入进行加权求和,然后将结果输入到激活函数中。激活函数对加权求和的结果进行变换,输出给下一层神经元。通过激活函数,神经网络可以学习和表示数据中的非线性关系,使得其在处理图像、语音、自然语言等复杂任务时表现出色。本文将详细介绍激活函数的定义、作用及其种类,并通过具体例子和代码实现展示每种激活函数的性质和导数。

2024-06-13 03:10:13 2028

原创 算法练习(一)——数学公式,逻辑思维,DFS递归

算法练习,配上代码和思路讲解

2024-06-09 05:07:14 1073

原创 深度网络学习笔记(二)——Transformer架构详解(包括多头自注意力机制)

在现代深度学习模型的发展中,自注意力机制(Self-Attention)和Transformer架构成为了诸多领域中的重要组成部分。自注意力机制通过捕捉序列数据中不同位置之间的关系,显著提升了模型的表示能力。而Transformer架构则利用多层自注意力机制和前馈神经网络(Feed-Forward Network, FFN),构建了强大且高效的序列到序列模型。

2024-06-08 13:11:36 2869

原创 深度学习常见概念解释(二)—— 感受野:定义与计算公式

感受野(Receptive Field)是神经网络中一个基本且重要的概念,尤其是在卷积神经网络(CNNs)中。它表示输入空间中一个像素影响输出空间中特定神经元的区域大小。具体解释为:在卷积神经网络中,感受野是指在输入图像上,一个神经元(或特征图中的一个元素)可以看到或响应的区域大小。更具体地说,感受野是指输入图像的一个区域,这个区域中的像素会影响到卷积层或池化层中特定位置的输出值。感受野是卷积神经网络中衡量每个神经元能够“看到”的输入图像区域的一个重要概念。

2024-06-05 05:15:59 3736

原创 深度网络学习笔记(一)——self-attention机制介绍和计算步骤

Transformer是一种非常常见且强大的深度学习网络架构,尤其擅长处理输出为可变长度向量序列的任务,如自然语言处理(NLP)和图(Graph)处理。Transformer采用了self-attention机制,克服了传统循环神经网络(RNN)在处理长序列时存在的梯度消失和并行计算困难的问题。本文将详细介绍self-attention机制的定义和计算细节。Self-attention是一种计算输入序列中每个元素对其他所有元素的重要性权重的方法。

2024-06-02 05:04:32 1949

原创 YOLO系列笔记(十七)—— YOLOv5各层详细介绍(附python代码):Focus,Conv,C3,SPPF,特征金字塔及多尺度训练

在目标检测任务中,模型的结构和各个模块的设计对检测性能有着至关重要的影响。本文将详细介绍YOLOv5中的一些关键模块和技术,包括Focus层、卷积层(Conv)、C3层、SPPF层、特征金字塔(Feature Pyramid)以及多尺度训练(Multi-scale Training)。这些模块和技术共同构成了YOLOv5强大的目标检测能力。!Focus层的核心思想是将输入图像的空间信息(即宽度和高度)重新排列成更多的通道信息。

2024-05-20 14:19:46 3737

原创 YOLO系列笔记(十六)—— 图片合成视频并通过yolov8目标识别代码

在笔者的第一篇 YOLO 笔记文章中,提到 YOLO 网络相对于二阶段网络的一个显著优势是可以进行实时的目标识别,因此非常适合用于监控等需要对视频进行实时目标识别的场景。在这篇笔记中,笔者将介绍如何将图片合成为视频,以及如何调用 YOLOv8 对视频中的物体进行目标识别的代码。通过这篇文章,读者可以学习到图像处理和目标识别的具体实现方法,并将其应用到实际项目中。在本文中,我们详细探讨了如何利用Python和OpenCV将图像序列合成视频,并在视频中进行目标识别。

2024-05-16 12:52:47 1225 1

原创 YOLO系列笔记(十五)—— Python 文件与目录操作指南:掌握 os 模块的常用命令

在关于神经网络的学习中,Python 是非常常见且易于掌握的编程语言之一。笔者在学习的时候发现神经网络会经常涉及到一些文件操作,比如获得文件的路径并拼接,之后进行数据集的分类和移动等等,经常会需要编写Python脚本进行文件操作。在 Python 中,os 模块提供了一系列用于文件和目录操作的常见命令。在这篇文章中,笔者会介绍一些常见的 os 模块相关的文件处理命令并附上示例代码。这些命令被分类为文件操作、目录操作、路径操作、权限操作和其他操作。

2024-05-15 11:16:59 1011

原创 YOLO系列笔记(十四)——Compute Canada计算平台及其常见命令介绍

大家好,笔者目前身处加拿大,在学习神经网络的过程中由于无法使用国内服务器进行网络的训练和学习,一度感到十分不便。然而,幸运的是,我发现了Compute Canada——这是一个专为科研和学术研究设计的高性能计算平台,非常适合需要进行大规模计算和数据处理的项目,尤其是神经网络的训练。在本文中,笔者将详细介绍这一计算平台的优势,并提供一些实用的操作指令,希望能帮助身处海外的研究人员有效利用该平台。

2024-05-11 12:07:08 1551 2

原创 YOLO系列笔记(十三)——数据集文件夹拆分

在学习和训练涉及YOLO等神经网络的过程中,我们通常需要对收集到的大型数据集进行合理的拆分,标准的做法是将其分为训练集(train)、测试集(test)和验证集(validation)。手动对大规模的图片集进行分类不仅耗时而且容易出错,因此我编写了一个Python脚本,旨在自动化这一繁琐的过程。该脚本能够将指定文件夹中的图片按照8:1:1的比例自动分配到train、test和validation三个文件夹中,使用的是Python的os和shutil库来处理文件操作。!move_files。

2024-05-07 07:29:11 1191

原创 YOLO系列笔记(十二)——csv文件转成text文件

在上一篇文章中,我们探讨了如何将CSV格式的数据集转换为XML格式。然而,某些神经网络进行数据处理时,可能需要将数据直接以纯文本格式(TXT)提供。这种需求在神经网络的输入处理中也非常常见,因为某些处理框架和库可能优先或仅支持文本格式的输入。幸运的是,从CSV文件到TXT文件的转换是直接且不复杂的,不需要经过XML这一中间步骤。本文将详细介绍如何直接将CSV文件转换为更适合神经网络读取的TXT格式,并提供相应的Python脚本实现。

2024-05-07 05:59:05 1579

原创 YOLO系列笔记(十一)——csv文件转换成xml文件

在深入研究YOLO等图像处理神经网络之后,我深刻认识到数据是深度学习的基石。事实上,无论是何种类型的神经网络,它们都极度依赖于数据的质量和结构。网络的性能、效率以及最终的应用成效,均直接受到其训练和测试数据的影响。在我的数据搜集过程中,我注意到许多数据库主要以CSV文件格式存储。尽管CSV格式便于人们查看和阅读,但它并不适合神经网络的数据输入需求。因此,在本文中,我将分享一种从CSV文件转换为XML文件的方法,并对这一转换过程进行详细分析。这个函数用于转义可能破坏XML格式的特殊字符。

2024-05-06 07:25:20 1398

原创 YOLO系列笔记(十)—— 基础:卷积层及其计算公式

卷积层是在深度学习领域中非常常见、基础且重要的一种神经网络层。许多初学者可能会对卷积层的功能、其计算过程以及它在神经网络中的作用感到困惑。在这篇文章中,我将为大家详细介绍卷积层的基本概念和运作原理。卷积层主要执行的是卷积操作,这是一种在神经网络中常用的操作,用于从输入数据中提取特征。在卷积层中,多个卷积核(也称为滤波器)在输入数据上滑动,并在每个位置上执行逐元素的乘积运算,随后将这些乘积相加以产生输出特征图中的一个元素。这个过程在数学上被描述为卷积运算,其目的是通过滤波器提取输入数据的局部特征。

2024-05-05 14:47:27 4217 2

原创 YOLO系列笔记(九)—— yolov5转onnx并推理

该笔记记录了将训练后得出的yolov5s.pt模型转为.onnx模型并进行推理的过程。教程与大部分代码均来自这位作者的这篇博客。输入org_box(原始的边界框数据),conf_thres(置信度阈值),iou_thres(用于NMS的IoU阈值)。处理: 删除不符合置信度要求的框,对每个类别的框应用非极大抑制,以减少重叠。输出: 经过筛选和NMS处理后的边界框。

2024-04-22 07:42:57 4104 1

原创 YOLO系列笔记(八)——AssertionError: Image Not Found 错误的发现,分析和解决

在本篇笔记中,我们将一起探讨在使用深度学习模型进行图像处理时遇到的一个常见问题,以及如何解决这种问题。本案例中,笔者在测试自己训练的深度学习模型时遇到了一个令人费解的错误:尽管图片文件明显存在于指定路径,程序却报错显示找不到该文件。

2024-04-21 05:48:15 4858 3

原创 YOLO系列笔记(七)——xml文件转换成txt文件

该笔记将介绍将上一篇笔记中用labelimg标注出的文.xml文件转换成.txt文件的代码,其中大部分来自这位的这篇。

2024-04-15 09:27:03 1971 1

原创 YOLO系列笔记(六)——使用labelimg标注数据集

大家下载最新款即可。但此时的.xml文件不能直接用于深度学习网络的训练和测试,需要将该文件中的相关数据提取出来并进行处理,将所有需要的信息转换成.txt文件存到labels文件夹中才能进行后续的训练和测试。当图片准备就绪,就可以对图片中的某个物体进行标注了。完成标注后需要进行保存,此时可以自定义保存文件夹:点击左边导航栏中的Change Save Dir,决定将框选后的.xml文件保存路径。保存后在对应的文件夹里可以查到与图片文件同名的.xml文件,打开后会看到对应的图片信息以及框选的标签种类和位置。

2024-04-15 06:32:04 1042 1

原创 YOLO系列笔记(五)——YOLOv5结构文件分析

Conv:卷积层,用于特征提取。C3:该模块通常包含三个主要的部分:分割: 输入特征图首先被分割成两部分。一部分直接通过,作为残差连接;另一部分则进入后续的卷积处理。卷积处理: 分割后的一部分特征图会通过一系列的卷积层。这通常包括几个批量归一化层(BatchNorm)和激活函数(如 ReLU 或 Leaky ReLU)以及卷积层。在 YOLOv5 中,这部分还包括 “Bottleneck” 层,即使用 1x1 和 3x3 卷积的组合来减少参数数量并处理特征。

2024-04-14 05:31:24 1214 1

原创 YOLO系列笔记(四)——YOLO v3介绍

YOLO v3 是 YOLO 系列中的一种先进的实时目标检测网络,它在效率和速度方面相较于其前身有显著提升。此版本特别优化了网络结构,以改善小目标的检测能力,综合利用多尺度特征图信息以预测不同大小的物体。它采用了丰富的先验框设计,每个尺度提供三种不同规格,共计九种先验框。

2024-04-12 21:24:42 886

原创 YOLO系列笔记(三)—— YOLO v2的网络改进

YOLO V2 通过精心设计的网络结构,如去除全连接层和使用 1x1 卷积,实现了在保持高检测精度的同时,大幅减少计算量和参数数量。这种结构设计使得 YOLO V2 不仅在大型数据中心的 GPU 上运行效果良好,同时也适合在资源受限的设备上进行实时物体识别任务。此外,416x416 的输入尺寸平衡了速度和精度,使得网络既能捕捉到小物体,又能处理大场景中的复杂对象。

2024-04-10 12:37:05 1762 1

原创 深度学习常见概念解释(一)—— 梯度消失和爆炸

梯度消失问题(Vanishing Gradient Problem)是神经网络,尤其是深层神经网络在训练过程中常见的一个问题。它指的是在神经网络的训练过程中,当误差梯度(gradient)被反向传播回网络的输入层时,梯度的值变得非常小,甚至接近于零,导致网络权重的更新非常缓慢或者几乎不更新,这使得网络很难继续学习或者完全无法收敛到一个好的解。

2024-04-08 07:14:28 2679

原创 YOLO系列笔记(二)—— YOLO v1介绍

YOLOv1(You Only Look Once版本1)作为经典的单阶段目标检测算法,其设计理念是将目标检测问题通过卷积神经网络(CNN)转化为回归问题,实现了对视频流的实时检测,并因其应用范围广泛而备受关注。与早期的深度学习网络相比,YOLOv1在模型推理速度上有显著的优势,尽管其平均精度(mAP)不如后来的两阶段(two-stage)网络高,但在速度上仍保持领先地位。

2024-04-07 09:08:26 1092

原创 YOLO系列笔记(一)——YOLO介绍与衡量指标

在目标检测任务中,每个类别都有自己的精度-召回率曲线(Precision-Recall Curve),这条曲线描述了在不同置信度阈值下模型的精度和召回率之间的关系。最后,将所有类别的插值精度下的面积取平均,得到MAP(见图二)。其中,Area of Overlap 表示预测值和真实值之间的交集区域的面积,Area of Union 表示预测值和真实值之间的并集区域的面积,见下图。MAP是评价目标检测算法性能的重要指标,它综合考虑了模型在不同类别上的检测准确性和召回率,能够客观地评价模型的整体性能。

2024-04-05 12:13:27 1387 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除