All The Way North--CSDN博客

原创文本数据分析 seaborn + WordCloud：标签数量、句子长度、样本分布、词汇表、词云

本文介绍了文本数据分析的重要性及常用方法，包括标签数量分布、句子长度分析和词频统计。基于真实中文酒店评论数据集，展示了二分类情感分析语料的数据样式（0为消极，1为积极）。重点讲解了seaborn.countplot()函数的使用，该函数可直观展示分类变量频次分布，详细说明了其参数配置和可视化技巧，如通过hue分组着色、order控制类别顺序等，为文本数据探索分析提供了实用工具。

2026-02-07 11:05:17 2

原创 Tokenizer（构建词表） + Embedding（词向量）：中文 NLP 预处理实战详解

Tokenizer 简介与参数详解 Tokenizer 是 TensorFlow/Keras 中用于文本预处理的工具类，主要功能是将文本转换为模型可处理的数字序列。其核心特点包括：构建词表并分配唯一ID（从1开始）支持过滤低频词和特殊字符处理未登录词(OOV) 支持文本与数字序列的双向转换关键参数说明： num_words：限制词表大小，仅保留高频词 filters：定义要过滤的字符集 lower：是否将英文转为小写 oov_token：未登录词占位符 char_level：按词或字符进行切分使用

2026-02-06 22:27:04 227

原创 NLP处理必备：jieba 分词从入门到实战，中文分词与词性标注

本文详细介绍了Python中最常用的中文分词工具——jieba库。从基础安装与使用开始，逐步深入讲解三种分词模式（精确模式、全模式、搜索引擎模式）的区别与应用场景。进阶部分涵盖自定义词典配置、词性标注、关键词提取等高级功能，并通过丰富代码示例展示如何在实际NLP项目中应用jieba进行文本预处理。无论你是NLP初学者还是需要快速上手jieba的开发者，本文都能为你提供完整的实践指南。

2026-02-03 20:53:22 621

原创一文彻底搞懂准确率、精确率、召回率与 F1 分数

机器学习分类任务中，精确率、准确率和召回率是核心评估指标。准确率衡量整体预测正确率，适用于均衡数据；精确率关注预测正类的可靠性，强调减少误报；召回率评估查全能力，注重减少漏报。三者各有侧重，F1分数则综合了精确率和召回率。以癌症检测为例，即使准确率高，仍需关注召回率（避免漏诊）和精确率（减少误诊）。不同场景应选择合适的指标进行评估。

2026-02-03 20:20:31 417

原创 [实战分享]手把手教你用RNN写周杰伦风格的歌词！核心是理解“自回归”与“滑动窗口”

本文系统介绍了自回归语言模型的工作原理及实践应用，以生成周杰伦风格歌词为例。自回归模型通过链式分解联合概率，基于历史文本预测下一个词。训练阶段采用滑动窗口切分连续文本，构建(上下文,下一个词)样本进行并行训练；推理阶段则通过自回归循环逐词生成新文本。文章详细阐述了数据处理、模型训练和文本生成的全流程，并指出常见误区，强调遵循标准范式的重要性。最终总结出自回归语言模型的黄金法则，包括训练和推理阶段的核心目标、数据形式及关键操作。

2026-02-02 23:07:22 807

原创彻底掌握 RNN（实战）：PyTorch API 详解、多层RNN、参数解析与输入机制

本文介绍了RNN的API使用流程。通过处理两句话（"猫追狗"和"我爱猫"）的示例，展示了如何将词语转换为5维one-hot向量并构建(2,3,5)的输入张量。创建RNN层时重点解释了input_size(5)、hidden_size(2)等参数含义。运行RNN后会返回两个结果：output(2,3,2)包含所有时间步的隐藏状态，hidden(1,2,2)仅保留最后时刻的状态。文章通过代码演示验证了hidden与output最后一维的等价关系，并总结了RNN输入输出

2026-01-31 13:09:54 792

原创万字长文 · 彻底掌握RNN：原理、隐藏状态、矩阵变换、底层公式、单/Batch 样本处理、计算示例等深度解析

本文系统讲解了RNN（循环神经网络）的基本原理和应用场景。RNN通过引入记忆功能解决了传统神经网络无法处理序列数据的缺陷，其核心在于将上一步的输出作为当前步的输入，从而建立时间依赖性。文章详细阐述了RNN的网络结构、计算过程（包括前向传播和反向传播）、参数共享机制，以及向量方向等数学细节。同时指出了RNN的局限性，特别是梯度消失/爆炸问题，并简要介绍了LSTM等改进方案。通过具体示例和类比，文章直观地展示了RNN如何处理batch数据、维护独立隐藏状态等关键概念。全文兼顾理论严谨性和实践指导性，是理解序列建

2026-01-30 23:17:43 597

原创一文彻底搞懂词嵌入层（保姆级教程）：从原理、分词到 PyTorch 实战

词嵌入层是自然语言处理中的关键组件，它将离散的词语转换为连续的向量表示。传统的整数编号和独热编码存在语义缺失问题，而词嵌入通过将词语映射为低维稠密向量（如128维），能有效捕捉词语间的语义关系。词嵌入层本质上是一个可训练的查找表，将词ID映射为对应向量，这些向量会在训练过程中自动优化。预训练词嵌入（如Word2Vec）可直接使用，也可根据任务从头训练。通过词嵌入，神经网络能更好地理解词语的语义信息，为后续处理提供基础。

2026-01-13 22:23:18 1039

原创 RNN基本介绍

循环神经网络(RNN)是一种专为处理序列数据设计的神经网络，通过引入循环连接使网络具有"记忆"能力。RNN的核心思想是利用隐藏状态传递历史信息，适用于自然语言处理、语音识别、时间序列预测等场景。与传统前馈神经网络不同，RNN能够处理输入数据间的时序依赖关系。但RNN存在梯度消失和梯度爆炸问题，难以学习长期依赖关系，这促使了LSTM、GRU等改进模型的出现。RNN虽然逐渐被Transformer等新架构取代，但其循环思想仍是序列建模的重要基础。

2026-01-12 22:02:53 569

原创 PyTorch从零实现CIFAR-10图像分类：保姆级教程，涵盖数据加载、模型搭建、训练与预测全流程

CIFAR-10是一个经典的图像分类数据集，包含60,000张32×32彩色图像，分为10个类别（如飞机、汽车、鸟类等）。数据集分为50,000张训练图像和10,000张测试图像，常用于机器学习模型的开发和评估。PyTorch提供了CIFAR10类，支持自动下载和图像预处理，通过transform参数可将PIL图像转换为模型所需的Tensor格式，并进行数据增强（如随机翻转、裁剪等）。该数据集因图像尺寸小、类别均衡，成为深度学习模型测试的理想选择。

2026-01-11 13:35:56 877

原创池化层全解析：MaxPool vs AvgPool、参数详解、避坑指南与PyTorch实现

池化层（Pooling）是一种无参数的局部信息聚合操作，主要用于降维和增强特征鲁棒性。其名称源于英文"pooling"，意为将数据像汇入池子一样进行浓缩处理。核心操作包括最大池化（取窗口内最大值）和平均池化（取窗口内均值），可有效减小特征图尺寸、提升平移不变性并防止过拟合。池化层对多通道输入会独立处理每个通道，保持通道数不变。现代神经网络中，池化层逐渐被带步长的卷积替代，但在传统CNN中仍广泛应用。PyTorch提供1D/2D/3D的MaxPool和AvgPool实现，通过kernel_

2026-01-06 19:08:56 1214

原创万字长文 · 彻底掌握 CNN 卷积层：特征图、感受野、多通道等深度解析 + 可视化实战

本文解析了CNN中的核心概念：特征图、特征点和感受野。特征图是卷积层的输出矩阵，相当于CNN的"视觉理解"；特征点是特征图上的单个数值，对应输入图像的局部特征；感受野则是特征点在输入图像上对应的区域范围。三者关系为：特征图包含特征点，特征点对应感受野。通过实例说明卷积操作如何生成特征图，并展示特征点与感受野的映射关系。文章强调感受野随网络层数增加而扩大，浅层关注局部细节，深层捕捉全局特征，这对理解CNN工作原理和优化网络结构至关重要。

2026-01-04 21:24:40 1737

原创 CNN入门前置知识：图像类型全解析（二值/灰度/索引/RGB）与Matplotlib可视化实战

本文介绍了图像的基本概念和四种常见类型。图像是人类认识世界的重要媒介，可分为二值图像（仅黑白两色）、灰度图像（256级亮度）、索引图像（依赖调色板）和真彩色RGB图像（直接存储三原色）。通过对比表格详细说明了各类图像在通道数、像素值范围、特点和用途上的差异，如二值图像适用于文字识别，真彩色图像适合照片显示等。文章通过具体示例直观展示了不同类型图像的存储格式和呈现效果，帮助读者理解计算机中图像的基本表示方法。

2026-01-04 00:49:25 658

原创彻底讲透：卷积核如何从像素中“学会”看世界？——CNN有效的底层机制

卷积核能够学习局部特征的关键在于其数学设计与图像特性的完美匹配。卷积操作本质上是局部区域像素与卷积核权重的点积运算，当两者数值模式高度匹配时产生强烈响应。通过反向传播训练，卷积核权重自动优化为对特定局部特征（如边缘、纹理）敏感的探测器。这种机制源于：1）卷积的局部连接特性与图像的局部相关性天然契合；2）随机初始化后梯度下降驱动权重向有利于任务的方向演化；3）不同卷积核因初始差异和任务需求而专业化分工。最终，每个卷积核成为能对特定局部模式产生最大化响应的特征检测器。

2026-01-02 14:35:49 720

原创 [实战分享] PyTorch实战：手机价格区间分类（95%准确率）+ 模型保存/加载/loss波动全解析

本文介绍了使用神经网络预测二手手机价格区间的分类问题。首先通过数据分析确定20个特征参数与4个价格区间（0-3）的关系，然后构建了一个包含批量归一化、ReLU激活和Dropout正则化的三层全连接网络模型。模型采用PyTorch实现，包含128和256个节点的两个隐藏层，最终输出4个类别的预测结果。文中详细展示了数据预处理、模型架构设计和参数初始化过程，并提供了模型结构可视化方法。该方案通过分类而非回归方式预测价格区间，适用于二手手机定价场景。

2026-01-01 19:03:15 1019

原创 Batch Normalization 详解：从原理、公式到手算示例，再到 API、参数详解、实战代码，彻底搞懂训练/推理全流程！

批量归一化（Batch Normalization）是深度学习中一种标准化技术，主要用于加速神经网络训练并提高模型稳定性。其核心思想是对每个mini-batch中同一特征维度的所有样本值进行归一化处理，计算该特征的均值和方差，并进行标准化。同时引入可学习的缩放参数γ和平移参数β，以保持网络表达能力。BN通常置于全连接层或卷积层之后、激活函数之前，能有效缓解内部协变量偏移问题，允许使用更大学习率，降低对初始化的敏感性，并具有轻微的正则化效果。该技术显著提升了深层神经网络的训练效率和稳定性，已成为现代深度学习模

2025-12-31 16:59:16 917

原创从0到1，构建自己的全连接神经网络

PyTorch神经网络工具箱的核心模块是torch.nn，它提供了构建神经网络所需的层、激活函数、损失函数等工具。所有自定义模型必须继承nn.Module基类，它自动管理参数、支持前向传播和GPU加速等功能。关键步骤包括：在__init__中定义网络结构并调用父类初始化，在forward中实现计算逻辑。torchsummary库的summary函数可帮助可视化模型结构，显示各层输入输出形状和参数量，便于调试和优化网络设计。

2025-12-27 18:58:52 949

原创全连接神经网络基本概念详解：输入输入、维度理解、权重矩阵、神经元个数

全连接神经网络的输入输出通常为二维张量（batch_size × num_features），相当于处理表格数据（行=样本，列=特征）。虽然PyTorch的nn.Linear支持更高维输入（最后一维需匹配in_features），但基础场景下建议保持二维形式。图像/文本等非表格数据需先展平为二维。初学者应始终保留batch维度，避免使用一维输入。 "维度"在不同语境下含义不同： 1）张量形状维度：指数组的轴数和长度（如(3,4)是2维张量） 2）特征空间维度：指向量元素个数（如[0.1,

2025-12-26 17:48:27 1232

原创彻底搞懂Dropout正则化——底层原理、计算示例、理论vs实践、API、参数详解、实战代码

正则化是防止神经网络过拟合的核心手段，通过在损失函数中加入惩罚项来限制模型复杂度。常见方法包括L1/L2正则化、Dropout、早停和数据增强等。其中，Dropout通过在训练时随机"关闭"部分神经元，迫使网络学习更鲁棒的特征。训练阶段采用独立随机mask和inverted dropout技术（除以1-p保持期望输出），测试时则使用完整网络。这种机制相当于训练多个子网络集成，有效提升模型泛化能力。实际应用中常组合使用L2正则化、Dropout和早停等技术。

2025-12-26 00:15:26 1291

原创 PyTorch ExponentialLR：按指数学习率衰减原理、API、参数详解、实战

指数学习率衰减（ExponentialLR）是一种连续平滑的学习率调整策略，通过每个epoch乘以固定衰减因子γ实现。其数学表达式为ηₜ=η₀·γᵗ，形成指数函数形式的衰减曲线。PyTorch中通过ExponentialLR(optimizer, gamma)实现，γ需满足0<γ<1，值越小衰减越快。相比阶梯式衰减（StepLR），它提供更精细的连续控制，适合需要稳定收敛的场景，如强化学习和RNN训练。典型应用时建议从γ=0.9开始尝试，注意避免衰减过快导致后期训练停滞。该策略无需预设衰减点，但

2025-12-22 16:20:43 1049

原创 PyTorch MultiStepLR：指定间隔学习率衰减的原理、API、参数详解、实战

PyTorch的MultiStepLR是一种灵活的学习率衰减策略，允许在自定义的epoch节点（milestones）上衰减学习率，而非固定间隔。相比StepLR的等距衰减，MultiStepLR通过milestones参数可精确控制衰减时机，适用于复杂训练场景。其API包括optimizer绑定、严格递增的milestones列表和衰减系数gamma。典型应用包括ResNet等经典模型训练，在预设epoch点（如30/60/90）按gamma比例降低学习率。使用时需注意调用顺序（先optimize

2025-12-21 23:24:54 897

原创 PyTorch StepLR：等间隔学习率衰减的原理与实战

等间隔学习率衰减（Step Decay）是深度学习中常用的学习率调度策略，通过定期降低学习率来优化模型训练。其核心思想是每隔固定训练轮数（epoch）将学习率乘以衰减因子（如0.1或0.5）。PyTorch提供StepLR调度器实现该功能，需设置初始学习率、衰减间隔和衰减因子三个参数。该方法简单有效，能稳定训练后期收敛，但需手动调参且缺乏自适应性。使用时需在每个epoch结束后调用scheduler.step()更新学习率，注意与优化器更新顺序的配合。相比自适应方法，Step Decay更适合作为基线策略或

2025-12-20 21:33:52 668

原创深度解析Adam优化器：从有效学习率，到手算示例，再到PyTorch实战

Adam优化算法结合了动量算法和RMSprop的优点，通过维护梯度的一阶矩（平滑梯度方向）和二阶矩（自适应学习率）来实现高效参数更新。其核心创新在于引入偏差修正机制，解决了初始估计偏差问题。算法动态计算每个参数的有效学习率，更新公式为参数减去有效学习率与平滑梯度的乘积。示例展示了Adam的具体计算过程，验证了其自适应学习率的特性。PyTorch实现也遵循这一机制，确保与理论一致。

2025-12-19 12:05:51 1086

原创 PyTorch RMSprop 全面解析：数学原理、手算示例、API、代码实践

RMSprop是一种自适应学习率优化算法，通过引入指数加权平均（EWA/EMA）来改进AdaGrad。相比AdaGrad直接累加历史梯度平方导致学习率持续衰减，RMSprop使用衰减系数β（通常取0.9）对梯度平方进行指数平滑，使久远梯度的影响逐渐减弱。其核心公式为v_t=βv_{t-1}+(1-β)g_t^2，参数更新时用√(v_t)+ϵ归一化学习率。这种机制有效缓解了AdaGrad后期学习率过小的问题，更适合深度神经网络的非凸优化任务。在实现上，PyTorch等框架的分母为√(v_t)+ϵ而非√(v_t

2025-12-18 11:24:20 743

原创 AdaGrad 深度解析：从数学原理到 PyTorch 实现，为什么它在稠密问题中“学不动”？

AdaGrad是一种自适应学习率优化算法，通过为每个参数独立调整学习率来提升稀疏数据（如NLP、推荐系统）的训练效果。其核心机制是：基于历史梯度平方和的累加（G_t）自动缩放学习率，高频更新参数获得较小学习率，稀疏参数保持较大学习率。PyTorch实现采用公式 w_t+1 = w_t - lr/(sqrt(G_t)+eps)*g_t（注意eps在根号外），与理论公式存在差异。实验显示，在连续优化问题中，AdaGrad会因学习率过早衰减而表现不佳，这反映了其设计假设（梯度幅

2025-12-16 19:11:25 1031

原创动量优化器详解：从原理到代码实现，彻底搞懂Momentum的惯性加速机制

本文系统讲解了梯度下降中的动量优化技术，通过理论分析、数值示例和代码实现对比了标准SGD与带动量SGD的差异。实验表明，在PyTorch实现中，动量公式未包含(1-β)归一化因子，导致学习率需要相应调整。当学习率设为0.02（β=0.9）时，带动量SGD展现出平滑加速和稳定收敛的特性，相比标准SGD显著提升收敛速度。而过大学习率（0.2）会导致严重震荡。三种方法对比显示，合理配置的动量优化兼具加速收敛和稳定性优势，是深度学习中的常用技术。理解动量机制对掌握现代优化器至关重要。

2025-12-15 13:12:48 896

原创详解：指数加权平均（EWA）、移动加权平均（MWA）

指数加权平均（EWA）是一种特殊的加权平均方法，其权重随时间呈指数衰减，近期数据权重更大。核心参数β控制记忆长度，β越大平滑度越高但反应越慢。与移动加权平均（MWA）相比，EWA具有无限窗口、指数衰减权重和递推计算（O(1)复杂度）三大特性，是MWA的高效实现。EWA在深度学习优化器（如Momentum、Adam）中广泛应用，能有效平滑噪声并实现长期记忆。理解EWA与MWA的关系有助于把握现代优化算法的设计原理。

2025-12-14 17:47:55 1232

原创为什么全连接神经网络能准确预测？通用逼近定理告诉你答案

全连接神经网络通过“线性变换+非线性激活”的堆叠结构实现复杂模式识别，其理论基础是通用逼近定理(UAT)。该定理证明：具有单隐藏层、足够神经元和非线性激活的网络，能以任意精度逼近任何连续函数。线性变换提供特征组合能力，非线性激活打破线性限制，使网络能够逐层构建从低级特征到高级语义的抽象表示。虽然UAT保证了网络表达能力，但实际应用中还需结合优化算法、数据质量和网络结构设计等因素才能实现有效学习。UAT解释了“为什么能”的问题，而“如何实现”则依赖于

2025-12-06 21:20:52 811

原创 PyTorch SmoothL1Loss 全面解析：数学定义、梯度推导、API 规范与 logits 误用纠正

摘要：nn.SmoothL1Loss是一种结合L1和L2优点的回归损失函数，对异常值鲁棒且处处可导。数学上，当误差小于beta（默认1.0）时采用平方项（L2），否则采用绝对值项（L1）。输入需为相同形状的浮点张量，输出可通过reduction参数控制。特别强调，"logits"仅适用于分类任务，回归任务中应称模型输出为"预测值"。代码示例展示了损失计算和梯度推导过程，验证了其分段特性和平滑性。该函数广泛应用于目标检测等回归任务。

2025-12-04 12:43:10 920

原创 PyTorch nn.L1Loss 完全指南：MAE 原理、梯度计算与不可导点处理详解

nn.L1Loss是PyTorch中实现平均绝对误差(MAE)的损失函数，主要用于回归任务。它计算预测值与真实值之间的L1范数误差，数学定义为逐元素绝对差。输入要求预测值和真实值具有相同形状和数据类型，且不限制取值范围。L1Loss支持三种reduction方式：'none'返回逐元素损失，'sum'返回总和，'mean'(默认)返回平均值。在梯度计算方面，PyTorch使用sign函数处理不可导点，将误差为0时的梯度定义为0，这是合理的次梯度选择。当reduction='mean'时，梯度会除以样本数N。

2025-12-03 21:41:09 625

原创 PyTorch 二分类损失函数详解：BCELoss vs BCEWithLogitsLoss 最佳实践指南

本文介绍了PyTorch中二分类任务常用的两种损失函数BCELoss和BCEWithLogitsLoss。BCELoss要求输入经过Sigmoid处理的概率值(0-1之间)，而BCEWithLogitsLoss直接接收模型输出的logits值，内部自动完成Sigmoid转换，具有更好的数值稳定性。文章详细说明了两种损失函数的数学定义、输入要求、API参数和使用场景，并对比了它们的差异。特别强调真实标签必须是浮点类型(0.0或1.0)，推荐优先使用BCEWithLogitsLoss以避免数值不稳定问题。最后提

2025-11-30 20:42:41 1285

原创一文系统性理清PyTorch多分类任务交叉熵损失：从 Softmax 到 CrossEntropyLoss

本文详细介绍了Softmax激活函数及其在多分类任务中的应用，重点解析了交叉熵损失（CrossEntropyLoss）的原理和PyTorch实现。主要内容包括：1. Softmax函数将模型输出的logits转换为概率分布，满足概率性质；2. 信息论基础概念（信息量、熵、交叉熵）及其在机器学习中的应用；3. CrossEntropyLoss的数学原理和优化目标，强调其对模型预测的"惩罚"机制；4. PyTorch中nn.CrossEntropyLoss的API使用规范，包括输入格式要求（

2025-11-29 01:18:13 967

原创 PyTorch 的 MSE 损失默认没有 1/2！——nn.MSELoss 原理与 API 全解析

本文详细解析了PyTorch中nn.MSELoss的实现细节与使用方式。重点指出PyTorch默认的MSE损失函数不包含1/2系数，其梯度计算天然带有因子2。文章通过具体代码示例验证了梯度计算过程，并详细推导了数学公式。同时介绍了nn.MSELoss的三个重要参数（reduction='mean'/'sum'/'none'）及其适用场景，强调在回归任务中的标准使用方法。最后澄清了常见误区，指出该损失函数没有可学习参数，仅用于计算预测值与真实值的误差。

2025-11-13 22:32:49 682

原创别再被名字骗了！SGD 的“随机”根本不在优化器里——PyTorch SGD 原理与 API 详解

SGD（随机梯度下降）是一种通过随机采样数据估计梯度来优化模型参数的算法。其核心思想是使用随机子集而非全部数据计算梯度，以提高训练效率并引入有益噪声。在PyTorch等框架中，SGD优化器仅负责参数更新，随机性由DataLoader的shuffle参数控制。原始SGD每次用1个样本，现代实践中则多用mini-batch（如16、32个样本）。SGD优化器初始化时保存参数和学习率，核心操作是step()执行参数更新，而zero_grad()是PyTorch为防止梯度累加提供的辅助方法。典型训练流程包括：清零梯

2025-11-13 20:47:03 967

原创梯度下降为何要用学习率？不只是防震荡，真相在“无穷小邻域”

摘要：本文探讨了梯度下降中的三个关键问题：1）线性函数中导数的全局变化率特性，指出在a=w·x这类线性关系中，偏导数是精确的全局变化率；2）梯度与学习率的关系，强调梯度仅指示方向，而学习率控制步长，尤其非线性情况下需谨慎选择学习率；3）局部极小值问题，分析理论上的可能性与实践中通过优化技巧（如SGD、动量等）往往能避开不良极小值，最终获得足够好的解。文章揭示了数学理论与实际应用间的精妙平衡。

2025-11-12 20:32:54 933

原创 PyTorch张量计算梯度，前向传播，反向传播——我真的彻底悟了！

本文系统讲解了PyTorch中的梯度计算机制。主要内容包括：1）张量的基本概念，区分标量张量和向量张量的形状表示；2）PyTorch自动计算的是数学梯度而非负梯度，优化方向由优化器处理；3）线性函数的导数与全局变化率关系；4）上游梯度的概念及其在反向传播中的作用；5）动态计算图的构建原理和前向/反向传播过程；6）梯度计算的完整流程，通过具体示例展示链式法则的应用；7）损失函数的来源与反向传播条件；8）强调loss必须是标量张量才能调用.backward()，向量需先聚合。文章通过数学推导和代码示例详细解释了

2025-11-08 20:16:17 849 1

空空如也

空空如也