Zhansiqi-CSDN博客

原创 day47

必须切换到评估模式：model.eval()，关闭 Dropout、BatchNorm 等训练特有的层行为，保证推理结果稳定。权重分布可视化：通过绘制各层权重 / 梯度的直方图、密度图，分析参数分布是否合理，辅助排查梯度消失 / 爆炸等问题。自动写法：借助tqdm等库，一键生成美观的进度条，自动显示耗时、剩余时间等信息，提升训练日志可读性。手动写法：通过循环计算进度，自定义字符样式（如[===== ]），适合轻量级场景。配合torch.no_grad()上下文管理器，禁用梯度计算，节省显存并加速推理。

2026-03-28 23:03:36 177

原创 day46

r，不仅将长度放宽到了它的物理极限 512，还严格生成了 attention_mask 来屏蔽 Padding 位。，使用了 PyTorch 的 pack_padded_sequence 进行动态打包压缩，算完再解压。因为引入了时序计算和自己手写的 Attention，显存压力陡增，我把 Batch Size 降到了。强行压低了‘科技’等头部大类的 Loss 权重，同时赋予了‘星座’等尾部小类极高的错判惩罚。，为了防止‘灾难性遗忘’破坏底层的中文语义知识，我改用了带权重衰减的。（展现长尾治理能力）

2026-03-27 02:06:43 42

原创 day45

在 Transformer 中，每个 Token 的特征（Embedding）是相对独立的，LN 能保证每个词的表征都在一个合理的范围内，不受 Batch 大小和句子长度的影响。由于生成任务是按照时间顺序的，模型不能“偷看”未来的词。类似于集成学习（Ensemble），多头并行计算后拼接，能让模型在多个**表征子空间（Subspaces）**中学习信息，比单一维度的注意力更稳健。用 $Q$ 去和所有的 $K$ 计算相似度（打分），然后根据得分高低，去拿走对应的 $V$。你的“搜索意图”（我想找什么？

2026-03-25 08:03:11 355

原创 day44 花卉model

【代码】day44 花卉model。

2026-03-22 21:17:36 27

原创 dayy43

【代码】dayy43。

2026-03-21 22:47:47 27

原创 day42部分题目

他只要顺口问一句：“BERT 只能处理 512 个词，你的新闻那么长，剩下的词你直接扔掉了吗？”如果你答不上来，他就会怀疑你的 0.94 分是不是真的。如果你在写代码时偷了个懒，没有用 pack_padded_sequence 把这些 0 给‘压缩/屏蔽’掉，直接把带有大量 0 的矩阵强行喂给了 BiLSTM，这会对你的模型训练、以及最终算出来的特征向量，造成什么毁灭性的打击？你的数据既然是脱敏的数字 ID，那你后面用的 BERT 预训练模型，它自带的中文词表（Vocab）不就完全失效了吗？

2026-03-20 23:56:10 428

原创 day41

维度公式： d=min⁡(600,⌈n0.25⌉×2)d=min(600,⌈n0.25⌉×2) 或简单取 n4×24n×2。Weighted BCE：给正样本更高的权重 ( weight=NnegNposweight=NposNneg )。推荐 ReLU (简单高效) 或 GELU/SiLU (更平滑，收敛更好)。深度：表格数据通常不需要太深，3-5 层足矣。优化器：首选 AdamW (比 Adam 解耦了权重衰减，泛化更好)。问题：IJCAI 转化率极低 (~2%)，正负样本极度不平衡。

2026-03-19 09:18:07 172

原创 day40注意力

超参数：reduction=16，kernel_size=7 是最优默认值。小模型（如自定义 CNN）：加 1-2 个 CBAM 在关键卷积块后；大模型（如 ResNet）：每层卷积后加，配合预训练权重微调；即插即用：适配所有 CNN 模型（自定义 / 预训练）。通道注意力：平均 + 最大池化双分支，全连接学习权重；双注意力机制：通道 + 空间，精准聚焦关键信息；空间注意力：通道维度池化 + 卷积学习空间权重；轻量化：计算量增加极少，效果提升显著；串行执行：先通道后空间，层层筛选特征。

2026-03-17 22:58:14 20

原创 day39

torch.ones_like()/zeros_like() 生成和输入形状相同的全 1 / 全 0 张量掩码初始化、基准值计算。torch.randint(low, high, size) 生成整数随机张量随机索引、类别采样。torch.randn() 生成标准正态分布（μ=0, σ=1）随机张量模型噪声、梯度扰动。torch.rand() 生成 [0,1) 均匀分布的随机张量权重初始化、随机掩码。函数作用常用场景。

2026-03-16 23:34:42 40

原创 day38

在深度学习中，注意力机制（Attention Mechanism）是让模型学会“关注重点”的方法。正如人类在看图时会自动聚焦于主体（如猫、车、人脸），而忽略背景，模型也希望学会同样的能力。

2026-03-15 23:32:42 24

原创 day37英语

第二我知道情人节是2月14，是个浪漫的日子。第一，因为我真的很爱我的专业，我想学更深的知识。(学习时我喜欢快生活。但在周末，我喜欢慢生活，可以看看书睡个好觉来放松。(如果我是HR，我选应届生。第一，因为他们年轻，对工作有热情。第一，自信的人说话总看着你的眼睛。但硬要选，家庭永远是我坚强的后盾。第一，因为科学需要我们提问，不能什么都信。第一，我们很勤奋，总为美好生活努力。第二，我们很善良友好，喜欢帮助别人。（这部分完全靠肌肉记忆，能帮你水掉5秒钟），中间只填2句最简单的大白话。嗯，在我看来，我认为...)

2026-03-14 23:49:15 869

原创 day36花卉面试题目

我平时看别人的论文，Grad-CAM 热力图都是贴几张好看的红红绿绿的图上去，凭肉眼说‘你看我的模型看对了地方’。在对比实验中我发现，基线模型以及结构复杂的 CBAM 模型，它们的高激活区域往往是大面积弥散的（比例远大于 30%），甚至覆盖了背景杂草，这说明模型在决策时引入了大量无关的噪声特征（即过拟合表现）。（批次矩阵乘法）将这个权重矩阵与原始的 LSTM 输出进行加权求和，把原本 256 长度的序列，浓缩成了一个带有注意力权重的句子表征向量。在验证 SE、CBAM 这种模块的通用有效性时，用。

2026-03-14 00:08:33 388

原创 day35

【代码】day35。

2026-03-13 00:35:38 252

原创 day33nlprnn

【代码】day33nlprnn。

2026-03-11 23:37:03 77

原创 day33

【代码】day33。

2026-03-11 00:10:29 63

原创 day32

X_val, X_test, y_val, y_test = train_test_split(X_test, y_test, test_size=0.5, random_state=42) # 50%验证集，50%测试集。continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist() #把筛选出来的列名转换成列表。# 网络层：输入层→隐藏层1→隐藏层2→输出层（二分类只有1个输出）

2026-03-09 22:55:16 320

原创 day32

PR 曲线：更关注 “正样本的识别效果”（比如推荐系统中，精准推荐给用户的比例），适合正负样本差距大、重视正样本召回的场景。ROC 曲线：评估模型在 “正负样本不平衡” 时的整体区分能力（比如疾病检测中，患病样本极少），对负样本数量不敏感；对于信贷数据，仔细观察每个模型的评估指标，并且打印他们的roc和pr曲线，从今天课上的视角去理解他们的能力。

2026-03-08 23:36:10 24

原创 day31验证集

这个成绩，就是你写在论文里的最终准确率。

2026-03-07 17:00:20 233

原创 day30注意力

复杂场景中，可能需要同时关注通道和空间（如混合注意力模块 CBAM），或处理长距离依赖（如全局注意力模块 Non-local）。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求和，输出=∑(输入特征×注意力权重)，其中注意力权重是学习到的。但是卷积是 “固定权重” 的特征提取（如 3x3 卷积核）--训练完了就结束了，注意力是 “动态权重” 的特征提取（权重随输入数据变化）---输入数据不同权重不同。

2026-03-06 14:50:11 183

原创 day29

我们之前介绍过机器学习可解释性工具，例如 SHAP、PDPBox 等，这些工具在处理结构化数据时，能够有效揭示模型内部的决策逻辑。而在深度学习领域，同样存在一系列方法来解析模型的决策过程：以图像分类任务为例，我们不仅可以通过可视化特征图，直观观察不同层对图像特征的提取程度；PyTorch 提供了一种强大的工具——hook 函数，它允许我们在不修改模型结构的情况下，获取或修改中间层的信息。它的核心价值在于让开发者能够动态监听、捕获甚至修改模型内部任意层的输入 / 输出或梯度，而无需修改模型的原始代码结构。

2026-03-05 00:48:37 41

原创 day 29

卷积层（Conv2d）提取图像局部特征（边缘、纹理、形状） in_channels（输入通道）、out_channels（卷积核数）、kernel_size（核大小）、stride（步长）、padding（填充）池化层（MaxPool2d）下采样，降低特征图尺寸，减少计算量 kernel_size（池化核大小）、stride（步长）全连接层（Linear）将特征图展平后分类 in_features（输入维度）、out_features（输出类别数）

2026-03-04 00:07:42 211

原创 day27 shap解释性分析

从基线值（所有样本的平均预测值）开始，每个箭头代表一个特征，箭头的长度是SHAP值的绝对值，方向由正负决定，最终叠加所有特征贡献后，指向该样本的模型预测值。其核心思想来源于博弈论，将每个特征视为“合作者”，通过计算该特征对模型预测结果的。横轴是特征值，纵轴是该特征对应的SHAP值。将数据集所有样本的SHAP值绘制成散点图，Y轴是特征，X轴是SHAP值，点的颜色表示特征值的大小（如从低到高）。：特征值与SHAP值之间的单调关系（例如，特征值越大，SHAP值越倾向于正，则为正向影响）。SHAP值提供了一个。

2026-03-02 22:48:49 424

原创 day文本张量表示方法

word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式.CBOW(Continuous bag of words)模式: * 给定一段用于训练的文本语料, 再选定某段长度(窗口)作为研究对象, 使用上下文词汇预测目标词汇.图中窗口大小为9, 使用前后4个词汇对目标词汇进行预测.

2026-03-01 00:14:04 830

原创回忆11111

圆圈表示进程，框表示一类资源。死锁的检测：资源分配图。

2026-02-28 23:48:32 205

原创 day 25

【代码】day 25。

2026-02-27 21:39:27 108

原创 day24 nlp学习 jieba

【代码】day24 nlp学习 jieba。

2026-02-25 00:23:02 396

原创 day23 复习pandas

【代码】day23 复习pandas。

2026-02-15 23:55:12 194

原创 day22

这是一个非常强大的图表，能一眼看出“患病人群”和“健康人群”在胆固醇指标上有没有显著差异（比如看中位数线是否不同）。：把年龄变成了符合正态分布的形式（均值为0），适合大多数机器学习算法（如逻辑回归、SVM）。：把胆固醇数据压缩到了 0 到 1 之间，适合那些对边界敏感的算法（如神经网络）。(胸痛类型)，因为它有多种类型（典型、非典型等）且没有大小之分，使用。(众数/出现最多的词) 来填补，这是处理分类缺失值的常用手段。：正如图片中提到的“字典的简单介绍”和“映射”，我们定义了。) 看年龄的分布是否均匀。

2026-02-15 00:06:01 175

空空如也

空空如也