- 博客(37)
- 收藏
- 关注
原创 Day39 Dataset和Dataloader
一、数据介绍CIFAR 是机器学习和计算机视觉领域中广泛使用的图像分类基准数据集,由加拿大高级研究学院(Canadian Institute for Advanced Research,CIFAR)的研究团队发布,主要用于小尺寸图像的分类任务,是入门和验证图像分类模型性能的经典数据集。2、数据集特点1.图像尺寸小:32×32 的分辨率远低于真实场景的图像,模型学习到的特征相对有限,容易出现过拟合。
2025-12-23 12:18:19
168
原创 Day38 模型可视化与推理
torchinfo 是提供比 torchsummary 更详细的模型摘要信息,包括每层的输入输出形状、参数数量、计算量等。可以将模型中带有weight的参数(即权重)提取出来,并转为。形式,对其计算统计分布,并且绘制可视化图表。tqdm这个库最核心的逻辑如下。
2025-12-23 12:08:51
143
原创 Day 36GPU的训练以及类的call方法
losses.append(loss.item()) 本身是轻量级操作(只是把一个数值存到列表里,耗时极短,可能只有微秒级)。而深度学习训练的主要耗时在:GPU 的前向 / 反向传播(占总耗时的 95% 以上);数据加载、内存拷贝等其他系统操作。2.__call__方法让类的实例拥有了 “函数调用” 的能力。1. 数据传输开销 (CPU 内存 <-> GPU 显存)GPU在计算的时候,相较于cpu多了3个时间上的开销。2. 核心启动开销 (GPU 核心启动时间)1.模型在 GPU 上训练,主要是将模型和。
2025-12-22 11:56:21
147
原创 Day 17 SHAP图的绘制
SHAP(SHapley Additive exPlanations)是当前机器学习领域最主流的模型可解释性工具,基于博弈论中的 Shapley 值,将每个特征对预测结果的贡献量化为「SHAP 值」,实现对模型的全局(整体特征重要性)和局部(单个样本决策逻辑)解释。Shapley 值基础:SHAP 值的计算源于博弈论中的 Shapley 值,核心是「在所有可能的特征组合中,计算某特征的平均边际贡献」,保证每个特征的贡献分配公平、无偏。全局:通过特征重要性、特征与预测结果的整体关系,理解模型整体行为;
2025-11-29 16:20:53
239
原创 Day16 不平衡数据的处理
随机欠采样组合采样策略:结合过采样和欠采样策略---SMOTE+ENN。过采样:增加少数类的样本数目---smote 插值、随机过采样。1.数据层面:通过调整训练集的类别分布来缓解不平衡问题。欠采样:删除多数类的样本----ENN 数据清洗。采取十八种组合,对心脏病数据集进行处理。3.评估指标:阈值移动。
2025-11-21 18:05:06
134
原创 DAY 14 多目标优化算法
目标优化 (MOO):Multi-Objective Optimization,同时优化两个或两个以上相互冲突的目标函数的问题。比如最大化模型的准确率和召回率,但是二者一般是矛盾的。多目标:保留N个帕累托最优点,不同算法筛选的策略不同。利用旧解产生新解(各种策略均可,GA\PSO等)单目标:直接排序,保留最优的N个解。初始化N个解(个体)计算函数值(适应度)
2025-11-17 23:19:50
165
原创 Day13 启发式算法
启发式算法不像某些数学模型,它具有精确的数学定义以及证明,当然了,不是说启发式算法就不严谨,只是说他们的应用场景不太一样,例如贝叶斯优化,它可能适合特征维度不高的情况,因为它基于特定的数学模型,例如高斯过程,那么数据维度高了之后,优化的过程将十分耗时,而且启发式算法的设计非常重要的一点就是要证明该算法最终是能够收敛到全局最优解(或接近)而不是漫无目的的永远搜索参数空间而无法停止;能量 E ( S ) E(S)E(S) 簇内平方和 (SSE \text{SSE}SSE)。越小代表聚类效果越好。
2025-11-16 23:45:50
609
原创 DAY 11 常见的调参方式
贝叶斯优化-----基于代理模型的思想,用简单的模型(高斯回归、决策树、神经网络)来替代复杂且计算成本高的模型,实现形式多样(sklearn、贝叶斯优化库、optuna)随机搜索----基于采样的思想,大幅减少搜索的点。time库的计时模块,方便后人查看代码运行时长。----最小mvp法则。
2025-11-13 23:40:20
111
原创 Day10 机器学习建模与评估
机器学习的流程顺序-----不要数据泄露(归一化器在划分数据集后)异常值的处理---箱线图去除异常值的思想和迭代问题。尝试对心脏病数据集采用机器学习模型建模和评估。机器学习模型建模的三行代码。机器学习模型分类问题的评估。
2025-11-12 23:32:14
529
原创 Day9 热力图和子图的绘制
2.特征与标签关系的在一起(连续变量一起;离散变量一起)2张图。拼接的形式来构建心脏病数据集的图的排版,完成下面5张图。离散变量一起)2张图。3.热力图调试到满意的样式。1.单特征的拼接在一起(
2025-11-11 22:24:41
170
原创 DAY 8 标签编码与连续变量处理
对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理。对独热编码的深入理解----n个不相关变量只有n-1个自由的。----一般选一个即可,谁好谁坏做了才知道,除非有先验知识。数据可视化(单特征、单特征与标签)连续特征的处理:归一化和标准化。连续特征的归一化or标准化。
2025-11-09 20:24:15
98
原创 DAY 6 数据可视化
单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图。内容回顾:数据初步可视化。箱线图美化--->直方。特征和标签关系可视化。
2025-11-06 22:51:25
209
原创 DAY 5 离散特征的处理(独热编码)
注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看。现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。4. 对独热编码后的变量转化为int类型。先按照示例代码过一遍,然后完成下列题目。3. 对离散变量进行one-hot编码。2.填补缺失值(离散+连续)部分代码不能跳步执行的原因。题目:离散特征的独热编码。和填补缺失值的顺序关系。1.读取data数据。
2025-11-06 16:20:46
163
原创 DAY 4 缺失值的处理
完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯。题目:初识pandas库与缺失数据的补全。打开数据(csv文件、excel文件)去尝试补全信贷数据集中的数值型缺失值。查看数据(尺寸信息、查看列名等方法)pandas包查看和读取文件。debugger调试控制台。利用循环补全所有列的空值。众数和中位数填补缺失值。众数、中位数填补空值。
2025-11-04 15:32:14
118
原创 DAY 3 列表、循环和判断语句
初始化两个变量:excellent_count 用于记录分数大于等于 90 的个数,初始值为 0;total_score 用于累加所有分数,初始值为 0。定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。循环结束后,计算平均分 average_score(总分除以分数的个数)。使用 for 循环遍历 scores 列表中的每一个分数。将当前分数累加到 total_score 变量上。所有分数的平均分(结果包含3位小数)。优秀分数(>=90)的个数。
2025-11-03 12:38:32
143
原创 DAY 2 字符串操作与比较运算
定义两个字符串变量,str1 赋值为 "Hello",str2 赋值为 "Python"。将这两个字符串拼接起来(中间加一个空格),存储在变量 greeting 中。提取后11个字符(Programming),存储在变量 part2 中。计算 greeting 字符串的长度,存储在变量 length 中。提取中间的5个字符(nProg),存储在变量 middle 中。将 score 转换为字符串,存储在 score_str 中。提取前6个字符(Python),存储在变量 part1 中。
2025-11-03 11:10:24
359
原创 DAY 1 变量与格式化字符串
计算这两个变量的和,并将结果存储在一个新的变量 a 中;计算这两个变量的商,叫做b;计算这两个变量的余数,叫做c。然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。计算折扣后的价格,并将结果存储在变量。函数将每个变量的值单独打印出来,每个值占一行。将这两个变量组合成一句话并打印出来。计算节省了多少钱,存储在变量。存储你所在的城市(字符串,例如。(请注意输出格式中的逗号和空格)存储你的名字(字符串,例如。题目3:变量的基础运算。定义两个浮点数变量,
2025-11-03 00:20:06
231
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅