自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 day47

必须切换到评估模式:model.eval(),关闭 Dropout、BatchNorm 等训练特有的层行为,保证推理结果稳定。权重分布可视化:通过绘制各层权重 / 梯度的直方图、密度图,分析参数分布是否合理,辅助排查梯度消失 / 爆炸等问题。自动写法:借助tqdm等库,一键生成美观的进度条,自动显示耗时、剩余时间等信息,提升训练日志可读性。手动写法:通过循环计算进度,自定义字符样式(如[===== ]),适合轻量级场景。配合torch.no_grad()上下文管理器,禁用梯度计算,节省显存并加速推理。

2026-03-28 23:03:36 177

原创 day46

r,不仅将长度放宽到了它的物理极限 512,还严格生成了 attention_mask 来屏蔽 Padding 位。,使用了 PyTorch 的 pack_padded_sequence 进行动态打包压缩,算完再解压。因为引入了时序计算和自己手写的 Attention,显存压力陡增,我把 Batch Size 降到了。强行压低了‘科技’等头部大类的 Loss 权重,同时赋予了‘星座’等尾部小类极高的错判惩罚。,为了防止‘灾难性遗忘’破坏底层的中文语义知识,我改用了带权重衰减的。(展现长尾治理能力)

2026-03-27 02:06:43 42

原创 day45

在 Transformer 中,每个 Token 的特征(Embedding)是相对独立的,LN 能保证每个词的表征都在一个合理的范围内,不受 Batch 大小和句子长度的影响。由于生成任务是按照时间顺序的,模型不能“偷看”未来的词。类似于集成学习(Ensemble),多头并行计算后拼接,能让模型在多个**表征子空间(Subspaces)**中学习信息,比单一维度的注意力更稳健。用 $Q$ 去和所有的 $K$ 计算相似度(打分),然后根据得分高低,去拿走对应的 $V$。你的“搜索意图”(我想找什么?

2026-03-25 08:03:11 355

原创 day44 花卉model

【代码】day44 花卉model。

2026-03-22 21:17:36 27

原创 dayy43

【代码】dayy43。

2026-03-21 22:47:47 27

原创 day42部分题目

他只要顺口问一句:“BERT 只能处理 512 个词,你的新闻那么长,剩下的词你直接扔掉了吗?”如果你答不上来,他就会怀疑你的 0.94 分是不是真的。如果你在写代码时偷了个懒,没有用 pack_padded_sequence 把这些 0 给‘压缩/屏蔽’掉,直接把带有大量 0 的矩阵强行喂给了 BiLSTM,这会对你的模型训练、以及最终算出来的特征向量,造成什么毁灭性的打击?你的数据既然是脱敏的数字 ID,那你后面用的 BERT 预训练模型,它自带的中文词表(Vocab)不就完全失效了吗?

2026-03-20 23:56:10 428

原创 day41

维度公式: d=min⁡(600,⌈n0.25⌉×2)d=min(600,⌈n0.25⌉×2) 或简单取 n4×24n​×2。Weighted BCE:给正样本更高的权重 ( weight=NnegNposweight=Npos​Nneg​​ )。推荐 ReLU (简单高效) 或 GELU/SiLU (更平滑,收敛更好)。深度:表格数据通常不需要太深,3-5 层足矣。优化器:首选 AdamW (比 Adam 解耦了权重衰减,泛化更好)。问题:IJCAI 转化率极低 (~2%),正负样本极度不平衡。

2026-03-19 09:18:07 172

原创 day40注意力

超参数:reduction=16,kernel_size=7 是最优默认值。小模型(如自定义 CNN):加 1-2 个 CBAM 在关键卷积块后;大模型(如 ResNet):每层卷积后加,配合预训练权重微调;即插即用:适配所有 CNN 模型(自定义 / 预训练)。通道注意力:平均 + 最大池化双分支,全连接学习权重;双注意力机制:通道 + 空间,精准聚焦关键信息;空间注意力:通道维度池化 + 卷积学习空间权重;轻量化:计算量增加极少,效果提升显著;串行执行:先通道后空间,层层筛选特征。

2026-03-17 22:58:14 20

原创 day39

torch.ones_like()/zeros_like() 生成和输入形状相同的全 1 / 全 0 张量 掩码初始化、基准值计算。torch.randint(low, high, size) 生成整数随机张量 随机索引、类别采样。torch.randn() 生成标准正态分布(μ=0, σ=1)随机张量 模型噪声、梯度扰动。torch.rand() 生成 [0,1) 均匀分布的随机张量 权重初始化、随机掩码。函数 作用 常用场景。

2026-03-16 23:34:42 40

原创 day38

在深度学习中,注意力机制(Attention Mechanism) 是让模型学会“关注重点”的方法。正如人类 在看图时会自动聚焦于主体(如猫、车、人脸),而忽略背景,模型也希望学会同样的能力。

2026-03-15 23:32:42 24

原创 day37英语

第二我知道情人节是2月14,是个浪漫的日子。第一,因为我真的很爱我的专业,我想学更深的知识。(学习时我喜欢快生活。但在周末,我喜欢慢生活,可以看看书睡个好觉来放松。(如果我是HR,我选应届生。第一,因为他们年轻,对工作有热情。第一,自信的人说话总看着你的眼睛。但硬要选,家庭永远是我坚强的后盾。第一,因为科学需要我们提问,不能什么都信。第一,我们很勤奋,总为美好生活努力。第二,我们很善良友好,喜欢帮助别人。(这部分完全靠肌肉记忆,能帮你水掉5秒钟),中间只填2句最简单的大白话。嗯,在我看来,我认为...)

2026-03-14 23:49:15 869

原创 day36花卉面试题目

我平时看别人的论文,Grad-CAM 热力图都是贴几张好看的红红绿绿的图上去,凭肉眼说‘你看我的模型看对了地方’。在对比实验中我发现,基线模型以及结构复杂的 CBAM 模型,它们的高激活区域往往是大面积弥散的(比例远大于 30%),甚至覆盖了背景杂草,这说明模型在决策时引入了大量无关的噪声特征(即过拟合表现)。(批次矩阵乘法)将这个权重矩阵与原始的 LSTM 输出进行加权求和,把原本 256 长度的序列,浓缩成了一个带有注意力权重的句子表征向量。在验证 SE、CBAM 这种模块的通用有效性时,用。

2026-03-14 00:08:33 388

原创 day35

【代码】day35。

2026-03-13 00:35:38 252

原创 day33nlprnn

【代码】day33nlprnn。

2026-03-11 23:37:03 77

原创 day33

【代码】day33。

2026-03-11 00:10:29 63

原创 day32

X_val, X_test, y_val, y_test = train_test_split(X_test, y_test, test_size=0.5, random_state=42) # 50%验证集,50%测试集。continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist() #把筛选出来的列名转换成列表。# 网络层:输入层→隐藏层1→隐藏层2→输出层(二分类只有1个输出)

2026-03-09 22:55:16 320

原创 day32

PR 曲线:更关注 “正样本的识别效果”(比如推荐系统中,精准推荐给用户的比例),适合正负样本差距大、重视正样本召回的场景。ROC 曲线:评估模型在 “正负样本不平衡” 时的整体区分能力(比如疾病检测中,患病样本极少),对负样本数量不敏感;对于信贷数据,仔细观察每个模型的评估指标,并且打印他们的roc和pr曲线,从今天课上的视角去理解他们的能力。

2026-03-08 23:36:10 24

原创 day31验证集

这个成绩,就是你写在论文里的最终准确率。

2026-03-07 17:00:20 233

原创 day30注意力

复杂场景中,可能需要同时关注通道和空间(如混合注意力模块 CBAM),或处理长距离依赖(如全局注意力模块 Non-local)。我们现在说的很多模块,比如通道注意力、空间注意力、通道注意力等等,都是基于自注意力机制的。从数学角度看,注意力机制是对输入特征进行加权求和,输出=∑(输入特征×注意力权重),其中注意力权重是学习到的。但是卷积是 “固定权重” 的特征提取(如 3x3 卷积核)--训练完了就结束了,注意力是 “动态权重” 的特征提取(权重随输入数据变化)---输入数据不同权重不同。

2026-03-06 14:50:11 183

原创 day29

我们之前介绍过机器学习可解释性工具,例如 SHAP、PDPBox 等,这些工具在处理结构化数据时,能够有效揭示模型内部的决策逻辑。而在深度学习领域,同样存在一系列方法来解析模型的决策过程:以图像分类任务为例,我们不仅可以通过可视化特征图,直观观察不同层对图像特征的提取程度;PyTorch 提供了一种强大的工具——hook 函数,它允许我们在不修改模型结构的情况下,获取或修改中间层的信息。它的核心价值在于让开发者能够动态监听、捕获甚至修改模型内部任意层的输入 / 输出或梯度,而无需修改模型的原始代码结构。

2026-03-05 00:48:37 41

原创 day 29

卷积层(Conv2d) 提取图像局部特征(边缘、纹理、形状) in_channels(输入通道)、out_channels(卷积核数)、kernel_size(核大小)、stride(步长)、padding(填充)池化层(MaxPool2d) 下采样,降低特征图尺寸,减少计算量 kernel_size(池化核大小)、stride(步长)全连接层(Linear) 将特征图展平后分类 in_features(输入维度)、out_features(输出类别数)

2026-03-04 00:07:42 211

原创 day27 shap解释性分析

从基线值(所有样本的平均预测值)开始,每个箭头代表一个特征,箭头的长度是SHAP值的绝对值,方向由正负决定,最终叠加所有特征贡献后,指向该样本的模型预测值。其核心思想来源于博弈论,将每个特征视为“合作者”,通过计算该特征对模型预测结果的。横轴是特征值,纵轴是该特征对应的SHAP值。将数据集所有样本的SHAP值绘制成散点图,Y轴是特征,X轴是SHAP值,点的颜色表示特征值的大小(如从低到高)。:特征值与SHAP值之间的单调关系(例如,特征值越大,SHAP值越倾向于正,则为正向影响)。SHAP值提供了一个。

2026-03-02 22:48:49 424

原创 day文本张量表示方法

word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式.CBOW(Continuous bag of words)模式: * 给定一段用于训练的文本语料, 再选定某段长度(窗口)作为研究对象, 使用上下文词汇预测目标词汇.图中窗口大小为9, 使用前后4个词汇对目标词汇进行预测.

2026-03-01 00:14:04 830

原创 回忆11111

圆圈表示进程,框表示一类资源。死锁的检测:资源分配图。

2026-02-28 23:48:32 205

原创 day 25

【代码】day 25。

2026-02-27 21:39:27 108

原创 day24 nlp学习 jieba

【代码】day24 nlp学习 jieba。

2026-02-25 00:23:02 396

原创 day23 复习pandas

【代码】day23 复习pandas。

2026-02-15 23:55:12 194

原创 day22

这是一个非常强大的图表,能一眼看出“患病人群”和“健康人群”在胆固醇指标上有没有显著差异(比如看中位数线是否不同)。:把年龄变成了符合正态分布的形式(均值为0),适合大多数机器学习算法(如逻辑回归、SVM)。:把胆固醇数据压缩到了 0 到 1 之间,适合那些对边界敏感的算法(如神经网络)。(胸痛类型),因为它有多种类型(典型、非典型等)且没有大小之分,使用。(众数/出现最多的词) 来填补,这是处理分类缺失值的常用手段。:正如图片中提到的“字典的简单介绍”和“映射”,我们定义了。) 看年龄的分布是否均匀。

2026-02-15 00:06:01 175

原创 day21复习之前的机器学习

@浙大疏锦行

2026-02-14 01:18:47 179

原创 day20_心脏病检测小案例(vibe coding)

【代码】day20_心脏病检测小案例(vibe coding)

2026-02-12 21:31:29 163

原创 day19CNN卷积神经网络(三)

1. input表述输入的图像2. filter表示卷积核, 也叫做滤波器(滤波矩阵)一组固定的权重,因为每个神经元的多个权重固定,所以又可以看做一个恒定的滤波器filter非严格意义上来讲,下图中红框框起来的部分便可以理解为一个滤波器,即带着。多个滤波器叠加便成了卷积层一个卷积核就是一个神经元3. input 经过 filter 得到输出为最右侧的图像,该图叫做特征图那么, 它是如何进行计算的呢?

2026-02-10 10:00:00 728

原创 day18CNN卷积神经网络(二)

在计算机视觉领域, 往往我们输入的图像都很大,使用全连接网络的话,计算的代价较高。另外图像也很难保留原有的特征,导致图像处理的准确率不高。卷积神经网络(Convolutional Neural Network)是。卷积层的。构成:(1)卷积层负责提取图像中的局部特征(2)池化层用来大幅降低参数量级(降维)(3)全连接层类似人工神经网络的部分,用来输出想要的结果。

2026-02-09 09:10:22 700

原创 day17卷积神经网络CNN(一)

图像是人类视觉的基础,是自然景物的客观反映,是人类的重要源泉。、绘画、剪贴画、地图、书法作品、手写汉字、传真、卫星云图、影视画面、X光片、脑电图、等都是图像。在计算机中,按照颜色和灰度的多少可以将图像分为四种基本类型。一幅二值图像的二维仅由0、1两个值构成,。由于每一像素(矩阵中每一元素)取值仅有0、1两种可能,所以计算机中二值图像的数据类型通常为1个二进制位。二值图像通常用于文字、线条图的扫描识别(OCR)和掩膜图像的存储。。因此其数据类型一般为,这就是人们经常提到的256灰度图像。

2026-02-08 23:51:20 1004

原创 day16网络性能优化

@浙大疏锦行

2026-02-07 23:46:06 240

原创 day 15 案例

print('===========================构建神经网络分类模型===========================')print('===========================构建张量数据集对象===========================')# todo:1-5 返回训练数据集, 测试数据集, 特征数, 类别数。# np.unique()->去重 len()->去重后的长度 类别数。# 优化③:使用Adam优化方法, 优化④:学习率变为1e-4。

2026-02-06 23:54:13 243

原创 day14 损失函数

【代码】day14 损失函数。

2026-02-04 23:18:39 85

原创 day13多分类任务的交叉熵损失函数

【代码】day13多分类任务的交叉熵损失函数。

2026-02-04 00:02:22 277

原创 day12 参数初始化

【代码】day12 参数初始化。

2026-02-01 23:16:59 154

原创 day11 激活函数

【代码】day11 激活函数。

2026-01-31 23:44:03 207

原创 day10 pytorch框架

【代码】day10。

2026-01-30 22:05:40 211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除