老唐777-CSDN博客

原创 2026大模型的正确学习顺序，终于有人讲清楚了！

这篇文章分享了一位成功转型AI工程师的经验心得。作者通过分析300+企业岗位需求，发现企业更看重实际应用能力而非理论算法，提出了3个月速成路线：首月掌握Python基础和大模型Prompt技巧；次月主攻RAG技术和知识库搭建；第三月深入学习Agent开发及相关工具链。文章强调实践导向，提供了清晰的学习路径，并表示愿意分享全套教程资料，帮助零基础者快速入门AI领域。

2026-04-14 17:56:22 14

原创 2026年Transformer全栈学习路线：从底层原理到大模型实战

本文系统介绍Transformer模型的学习路径与核心技术，包含以下要点：1. 学习基础：需掌握线性代数、概率统计、神经网络等数学与深度学习知识；2. 核心架构：详细解析自注意力机制、位置编码、前馈网络等关键组件；3. 演进方向：分析Encoder-Decoder、Encoder-Only、Decoder-Only三大范式及MoE等前沿技术；4. 工程实践：提供PyTorch实现示例及大模型训练、微调、部署方案；5. 学习建议：分阶段3个月掌握，推荐必读论文与常见误区。文章涵盖从理论到实践的完整知识体系，适

2026-04-14 17:33:37 423

原创 2026 年还有必要学机器学习吗？深度解析：趋势、价值与学习路线

2026年机器学习已成为AI时代的核心底层能力，而非过时技术。大模型的爆发使ML从"小众技术"升级为"通用刚需"，贯穿算法研发、模型微调、行业落地全流程。文章通过2026年最新数据揭示：ML岗位需求暴增45%，薪资领跑全行业；技术趋势转向"小而美"的垂直模型，强化ML工程能力需求；掌握ML能构建职业护城河，实现从执行者到决策者的跨越。同时提供6个月系统学习路径，涵盖数学基础、经典算法、深度学习到大模型工程部署，并强调实战项目对就业的关键作用。结论指

2026-04-14 17:23:30 462

原创（含代码）使用Python实现基于OpenCV的数字识别系统

2012年iOS应用商店中发布了一个名为FuelMate的Gas跟踪应用。小伙伴们可以使用该应用程序跟踪汽油行驶里程，以及有一些有趣的功能，例如Apple Watch应用程序、vin.li集成以及基于趋势mpg的视觉效果。燃料伴侣对此我们有一个新想法，该如何添加一个功能帮助我们在泵中扫描燃油，并在应用程序中输入燃油信息？让我们深入研究如何实现这一目标。

2026-01-06 17:37:24 612

原创这是一份动手学深度学习笔记！（附学习资料）

如果你正在学习深度学习，肯定听说过，这是公认的经典之作这一期主要是给大家总结这个教程的大纲内容并给大家分享（如下图）需要的兄弟可以按照这个图的方式。

2025-12-18 16:06:31 461

原创一文带你入门智能体Agent开发——核心知识与学习路线

狭义上的Agent：完全无人监督、自主拆解目标、寻找资源、使用工具，完成全部工作的系统广义上的Agent：指以 LLM（大语言模型）为核心驱动，具备基础任务响应与外部交互能力的系统市面上百分之99的Agent应用，其实只属于广义-简单Agent的范畴一个真正完整且智能的智能Agent系统，以下五个能力缺一不可Planning：自行对任务进行详细拆解，完成执行方案规划Action：根据方案，按流程一步步执行Observation：在Action过程中，应当能动态感知环境反应，动态调整规划。

2025-12-16 15:02:19 756

原创（含代码）AI基础知识：构建你的第一个深度学习模型

深度学习核心是通过构建和训练多层神经网络（深度神经网络）模拟人脑的复杂决策能力，让计算机能够从大量数据中自主学习复杂的特征和规律，以处理和分析图像、语音、文本等非结构化数据。图中展示了简单神经网络和深度神经网络，其中包含三个关键元素：节点：每个节点称为神经元，负责接收输入数据（通常为单一特征或特征组合），进行加权求和等运算，然后将结果传递给下一层的神经元。连线：神经元之间的连线代表信息传递的路径以及其权重。在训练过程中，这些连线负责传递信息，并使用权重来调整信号强度，以最小化预测误差。

2025-12-12 16:06:14 789

原创 AI基础知识篇：一文搞懂机器学习理论

人工智能指的是计算机执行各种决策任务的能力合集，这些任务通常模拟人类智能，例如理解自然语言、识别图像、解决问题和进行推理。AI 的目标是开发能够自主学习和适应的系统，以提升效率和准确性。机器学习是人工智能的一个子集，专注于如何让计算机基于数据做出决策。机器学习的主要目标是从现有的数据中发现模式和规律，并利用这些模式对未来的数据进行预测。深度学习是机器学习的一个领域，利用称为“神经网络”的多层结构来处理复杂数据模式识别，相对于普通机器学习，尤其擅长图像识别、自然语言处理等任务。

2025-12-11 11:31:22 1002

原创 YOLOv13深度解析（含论文代码）对比分析v8、v11、v12

YOLO系列已经更新到了YOLOv13，对比之前的版本它又有什么不一样的地方呢？引入了 C3k2 模块和部分空间注意力（C2PSA），提升了小目标检测性能。将注意力机制全面整合进网络，利用区域注意力（Area Attention）和 Flash Attention，增强了全局与局部特征建模能力。但问题仍然存在：卷积运算只能在固定感受野内聚合局部信息。注意力机制虽然扩大了感受野，但多是两两相关性建模，缺乏对多对多高阶相关性的表达能力。因此，

2025-10-23 15:31:32 1763

原创一文告诉你Kaggle竞赛是什么以及为什么要参加？（含学习资料）

Kaggle竞赛平台提供了多种类型的竞赛，以适应不同水平和兴趣的参与者。这些不同类型的比赛为参赛者提供了广泛的学习和竞争机会，无论是初学者还是经验丰富的数据科学家都能在Kaggle找到适合自己的挑战。以下是Kaggle比赛主要类型：Kaggle上最主要的比赛类型。这些通常是由公司、组织甚至政府赞助的，奖金池最大，但竞争最激烈，含金量最高。Featured比赛有deadline，过了deadline排名就显示在主页。而非featured的比赛，有可能过一段时间排行榜上的排名就不见了。

2025-09-25 15:16:08 1747

原创一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

PLM（预训练模型）：预训练语言模型。

2025-06-23 16:46:03 1130

原创一文彻底搞懂大模型 - GPT和LlaMA的模型架构

GPT-1：这是GPT系列的第一个版本，发布于2018年。

2025-06-13 16:19:25 1345

原创 yolov8对比yolov5有什么改进？

直接上YOLOv8的结构图吧，大家可以直接和YOLOv5进行对比，看看能找到或者猜到有什么不同的地方？

2025-06-11 17:42:31 1083

原创一文彻底搞懂大模型 - LLM的构建流程

LLM构建流程大模型（LLM，Large Language Model）的构建流程，特别是OpenAI所使用的大语言模型GPT构建流程，主要包含四个阶段：预训练、有监督微调、奖励建模和强化学习。这四个阶段各自需要不同规模的数据集、不同类型的算法，并会产出不同类型的模型，同时所需的资源也有显著差异。LLM构建流程为了方便大家学习，我整理了一份多模态大模型的学习资料包含教程、讲义、源码、论文和面试题等等（如图）除此之外还有100G人工智能学习资料包含数学与Python编程基础、深度学习+机器学习入门到实战，计算

2025-06-10 10:21:01 1270

原创一文彻底搞懂大模型 - RAG（检索、增强、生成）

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合了信息检索技术与语言生成模型的人工智能技术。该技术通过从外部知识库中检索相关信息，并将其作为提示（Prompt）输入给大型语言模型（LLMs），以增强模型处理知识密集型任务的能力，如问答、文本摘要、内容生成等。RAG模型由Facebook AI Research（FAIR）团队于2020年首次提出，并迅速成为大模型应用中的热门方案。

2025-06-09 10:46:57 664

原创一文彻底搞懂对比学习：原理、框架与应用

在深度学习领域，对比学习（Contrastive Learning）作为一种强大的无监督和自监督学习方法，近年来受到了广泛关注。它通过对比数据样本之间的相似性和差异性，从未标记的数据中提取有意义的表示，从而为下游任务提供强大的特征支持。本文将深入解析对比学习的原理、关键组件、主流框架以及实际应用，帮助读者全面理解这一前沿技术。

2025-06-06 10:57:49 13109

原创一文彻底搞懂大模型 - Attention：联合对齐和翻译（Align And Translate）

Attention MechanismAbstract摘要神经机器翻译是最近提出的一种机器翻译方法。与传统的统计机器翻译不同，神经机器翻译旨在构建一个可以联合调整以最大化翻译性能的单一神经网络。最近提出的神经机器翻译模型通常属于编码器-解码器家族，将源句子编码为一个固定长度的向量，解码器从这个向量生成翻译。在本文中，我们推测使用固定长度的向量是提高这种基本编码器-解码器架构性能的瓶颈，并提出通过允许模型自动（软）搜索与预测目标词相关的源句子的部分来扩展它，而无需将这些部分明确地作为硬分段来形成。通过这种新方

2025-06-05 15:29:07 935

原创一文彻底搞懂大模型 - Fine-tuning三种微调方式

Fine-tuning在生成式AI和大语言大模型（如GPT、LLaMA）的广泛应用中，微调（Fine-tuning）作为模型适应特定任务的关键步骤，其重要性不言而喻。以下将详细介绍三种流行的微调方式：Prompt-tuning、Prefix-tuning和LoRA，深入理解每种方法的原理、特点及应用场景。Fine-tuning为了方便大家学习，我整理了一份多模态大模型的学习资料包含教程、讲义、源码、论文和面试题等等（如图）除此之外还有100G人工智能学习资料包含数学与Python编程基础、深度学习+机器学习

2025-06-03 16:28:31 794

原创图解深度学习 - 激活函数和损失函数

但存在梯度消失问题，且输出不以零为中心。但同样存在梯度消失问题。当输入大于0时，输出等于输入；当输入小于0时，输出为0。解决了ReLU在输入小于0时梯度为0的问题，允许小的梯度流过。将输入向量中的每个元素映射到(0, 1)区间内，并且所有输出元素的和为1。用于回归问题，计算预测值与真实值之间差的平方的平均值。用于分类问题，衡量模型预测概率分布与真实概率分布之间的差异。包括二分类交叉熵损失和多类别交叉熵损失。

2025-06-03 13:58:50 1178

原创一文彻底搞懂大模型 - LLM四阶段技术

Prompt Engineering的核心要素在于通过明确的指示、相关的上下文、具体的例子以及准确的输入来精心设计提示，从而引导大语言模型生成符合预期的高质量输出。

2025-05-31 15:00:00 1145

原创图解深度学习 - 基于梯度的优化（梯度下降）

初始化参数：选择一个起始点作为初始参数，这些参数可以是任意值或随机选择的值。计算梯度：计算当前参数点处的。

2025-05-30 13:45:49 1073

原创一文彻底搞懂大模型 - Prompt Engineering（提示工程）

Zero-shot Learning：不给GPT任何样例，仅通过自然语言指令来指导模型完成任务。

2025-05-30 11:20:21 1143

原创图解深度学习 - 前向传播和反向传播

输入层接收数据：输入层是神经网络的第一层，它接收来自外部的数据。计算隐藏层输出：数据从输入层传递到隐藏层，隐藏层中的每个神经元都会接收来自上一层神经元的输入，并计算其加权和。加权和通过激活函数（如ReLU、Sigmoid、Tanh等）进行非线性变换，生成该神经元的输出。计算输出层输出：输出层是神经网络的最后一层，它接收来自隐藏层（或直接从输入层，如果网络没有隐藏层）的输入，并计算最终的输出。

2025-05-29 20:58:17 929

原创一文彻底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning

Prompt Engineering的核心要素在于通过明确的指示、相关的上下文、具体的例子以及准确的输入来精心设计提示，从而引导大语言模型生成符合预期的高质量输出。

2025-05-29 17:01:02 808

原创一文彻底搞懂Fine-tuning - 训练和推理（Training vs Inference）

Training vs Inference模型训练（Training）是通过大量数据优化模型参数以学习数据特征的过程，而模型推理（Inference）则是利用训练好的模型对新数据进行高效准确的处理以得出结论的过程。模型训练（Training）：已知一系列(x, y)对，通过优化算法调整F的参数，使得F能够尽可能准确地映射x到y。模型推理（Inference）：已知训练好的函数F和新的输入x，使用F计算得到对应的输出y的预测值。Training vs Inference为了方便大家学习，我整理了一份多模态大模

2025-05-28 17:55:52 1096

原创一文彻底搞懂Fine-tuning - 参数高效微调（Parameter-Efficient Fine-Tuning）

根据任务的具体需求，设计适配器的结构。适配器通常包括输入层、输出层、可能的下投影和上投影前馈层（用于调整特征的维度），以及非线性激活函数等。这些组件共同构成了能够学习特定任务知识的轻量级模块。将预训练模型与插入的适配器模块相结合，定义出完整的模型结构。在这个过程中，需要确保模型能够正确地处理输入数据，并通过适配器模块进行特征的转换和提取。

2025-05-27 15:31:13 1021

原创一文彻底搞懂Fine-tuning - 预训练和微调（Pre-training vs Fine-tuning）

在新任务的小规模标注数据集上，使用有监督学习的方法对预训练模型进行微调，以使其适应新任务。

2025-05-27 11:34:02 918

原创一文彻底搞懂Fine-tuning - 超参数（Hyperparameter）

批量大小指的是每次梯度下降迭代中使用的训练样本数量。

2025-05-26 15:28:04 1255

原创一文彻底搞懂RNN - 序列到序列（Seq2Seq）

每个时间点的数据都可以看作是序列的一个项，它们按照时间顺序排列，形成了时间序列数据。音频信号：音频信号可以被看作是一个连续的序列，每个时间点的振幅值构成了序列的一部分。编码器负责将输入序列转换为一个固定长度的上下文向量（Context Vector）或隐藏状态序列，以捕捉输入序列中的语义信息。在每个时间步，解码器接收上一个时间步的输出（或起始标记）和编码器的上下文信息，生成当前时间步的输出，并更新其内部状态。在每个时间步，解码器根据编码器输出的上下文信息和上一个时间步的输出，生成当前时间步的输出。

2025-05-26 11:12:58 949

原创一文彻底搞懂Transformer - Input（输入）

文本预处理：将输入的文本数据进行预处理，包括分词（将文本拆分成单词或子词单元）、转换为小写、去除停用词等。这一步通常由分词器（Tokenizer）完成。

2025-05-24 15:45:00 816

原创一文彻底搞懂Transformer - Word Embedding（词嵌入）

text-embedding-3-small是一个更小且高效的模型，而text-embedding-3-large则是一个更大且更强大的模型。该模型通过合并五个独立的模型（文本相似性、文本搜索-查询、文本搜索-文档、代码搜索-文本和代码搜索-代码）为一个新的模型，从而在一系列不同的文本搜索、句子相似性和代码搜索基准中表现出色。输入层接收上下文词的one-hot编码，隐藏层通过权重矩阵将输入转换为低维的密集向量，输出层则使用softmax函数来预测目标词的概率分布。此外，它通常能够学习到更细致的词向量表示。

2025-05-24 15:30:00 964

原创一文彻底搞懂Transformer - 注意力机制

二、

2025-05-24 15:00:00 1010

原创一文搞懂多头注意力（PyTorch）

输入变换：通过三个不同的线性变换层，将输入映射到查询（Query）、键（Key）、值（Value）向量。分割多头：将查询（Query）、键（Key）、值（Value）矩阵分成多个头，每个头具有不同的线性变换参数。缩放点积注意力：对于每个头，都执行一次缩放点积注意力（Scaled Dot-Product Attention）运算。具体来说，计算查询和键的点积，经过缩放、加上偏置后，使用softmax函数得到注意力权重。

2025-05-24 14:30:00 764

原创一文搞懂自注意力（PyTorch）

对于输入序列的每个单词，通过计算其Query与所有单词Key的点积得到注意力分数，经Softmax归一化后得到注意力权重，再用这些权重对Value向量进行加权求和，以得到包含丰富上下文信息的新单词表示。计算Q、K的点积（注意力分数）：计算Query向量与序列中所有单词的Key向量之间的点积，得到一个分数。自注意力机制是Transformer模型的核心组件，它允许模型在处理序列数据时，通过计算序列中不同位置元素之间的相关性得分，动态地调整对每个元素的关注程度，从而捕捉到序列内部的复杂依赖关系。

2025-05-24 14:00:00 1342

原创一文彻底搞懂CNN - AlexNet

输入层：接收固定大小的图像（如224x224x3），并进行预处理（如减去均值）。卷积层：共有5个卷积层，每个卷积层后都跟有ReLU激活函数和（部分层后）局部响应归一化（LRN）。卷积核的大小和数量逐渐增加，以提取更复杂的特征。池化层：在第1、2、5卷积层后使用最大池化（Max Pooling），其中第5层采用了重叠池化（Overlapping Pooling）。全连接层：共有3个全连接层，每个全连接层后都跟有ReLU激活函数和Dropout层。

2025-05-24 13:24:37 859

原创一文彻底搞懂CNN - 手写数字识别（LeNet-5）

传统方法局限性：传统模式识别方法依赖于手工设计的特征提取器，这些方法在处理复杂图像数据时存在局限性，如无法有效应对图像中的平移、形变和扭曲等变化。全连接网络的不足：全连接网络虽然可以作为分类器，但在处理图像数据时存在两个问题：一是参数过多，导致训练困难；二是忽略了输入数据的拓扑结构（如图像的空间相关性）。。

2025-05-24 11:33:36 845

原创一文彻底搞懂CNN - 模型架构（Model Architecture）

由输入层、卷积层、池化层以及全连接层组成，通过卷积操作提取图像特征，并通过池化减少参数数量，最终通过全连接层进行分类或回归。输入层：接收原始图像数据，可能需要进行预处理，如归一化、尺寸调整等。卷积层：通过一系列可学习的卷积核（或称为滤波器）对输入图像进行卷积操作，以提取图像中的局部特征。每个卷积核都会生成一个特征图（feature map），这些特征图共同构成了卷积层的输出。池化层：通常位于卷积层之后，用于对特征图进行下采样，以减少数据的空间维度和参数数量，同时保留重要特征。

2025-05-24 11:04:56 1357

原创一文彻底搞懂Transformer - 总体架构

包含数学与Python编程基础、深度学习+机器学习入门到实战，计算机视觉+自然语言处理+大模型资料合集，不仅有配套教程讲义还有对应源码数据集。更有零基础入门学习路线，不论你处于什么阶段，这份资料都能帮助你更好地入门到进阶。在每个子层之后，都会使用残差连接和层归一化操作，这些操作统称为Add&Normalize。每个子层后都有残差连接和层归一化操作，简称Add&Normalize。神经网络算法 - 一文搞懂LSTM（长短期记忆网络）神经网络算法 - 一文搞懂RNN（循环神经网络）为了方便大家学习，我整理了。

2025-05-24 10:13:10 894

原创一文搞懂多模态基础知识

常用的聚类算法包括K均值（K-means）、层次聚类（Hierarchical Clustering）、DBSCAN以及谱聚类（Spectral Clustering）等。

2025-05-24 09:32:54 829

原创目标检测新趋势！带你五分钟看懂Diffusion目标检测家族

扩散模型最初在图像生成领域大放异彩，直到2022年，华为诺亚方舟团队提出DiffusionDet，首次将扩散模型应用于目标检测领域。此后，随着DDOD、DiffusionInst等方法相继出现，扩散目标检测逐步拓展到密集小目标、实例分割等任务，并朝着高效化和多模态融合方向持续演进。（Diffusion Model）是一种正向扩散过程（Forward Process）：对原始图像（或者其他数据）进行一个逐步加噪的过程，把原始数据 x0加噪，生成一系列噪声图像 x1,x2,...,xT。

2025-05-24 09:00:00 1107

空空如也

空空如也