- 博客(45)
- 收藏
- 关注
原创 Day42 图像数据与显存
4.batchsize 和训练的关系。1.图像数据的格式:灰度和彩色数据。3.显存占用的 4 种地方。a. 模型参数+梯度参数。d. 神经元输出中间状态。c. 数据批量所占显存。
2026-01-24 00:15:43
46
原创 Day 39 模型可视化与推理
1.三种不同的模型可视化方法:推荐torchinfo打印summary+权重分布可视化。2.进度条功能:手动和自动写法,让打印结果更加美观。3.推理的写法:评估模式。
2026-01-19 22:25:11
27
原创 Day 38 GPU训练和call方法
作业:每次 GPU 等待 CPU 存数据的时间不固定,系统动态开销(如 CPU 负载、显存碎片)干扰明显,且深度学习框架会合并同步操作,使实际等待次数少于记录次数,总开销并非简单的次数 × 固定时间。4.类的call方法:为什么定义前向传播时可以直接写作self.fc1(x)3.GPU训练的方法:数据和模型移动到GPUdevice上。1.CPU性能的查看:看架构代际、核心数、线程数。2.GPU性能的查看:看显存、看级别、看架构代际。
2026-01-18 23:04:26
56
原创 Day37 MLP神经网络的训练
2.查看显卡信息的命令行命令(cmd 中使用)a.数据预处理 (归一化、转换成张量)i.继承nn.Module类。1.PyTorch和cuda的安装。c.定义损失函数和优化器。e.可视化loss 过程。ii.定义前向传播流程。4.简单神经网络的流程。作业:能够手敲今日代码。3.cuda 的检查。
2026-01-17 20:35:43
42
原创 Day26 复习日
仅可使用官方提供的数据集,在平台内完成数据预处理且不得修改数据集结构,提交文件需为仅含指定列的 CSV 格式,遵守每日提交次数限制;代码需使用平台支持的库、包含完整可复现流程且为原创,禁止抄袭或依赖外部缓存、已训练模型权重,个人参赛不可与他人协作共享代码或结果,同时需确保提交文件大小符合限制,模型训练目标需与竞赛评估指标一致。
2026-01-03 23:59:15
144
原创 Day 24 奇异值分解
从结果来看,本次基于心脏病数据集的 SVD 降维与模型训练效果表现优异:先是将 13 维的原始医学特征压缩至 7 维,在实现约 46% 维度压缩的同时保留了 73.53% 的核心数据信息,对应的重构相对误差(约 51.45%)处于合理范围,降维兼顾了效率与信息完整性;而基于降维特征训练的逻辑回归模型,在测试集上达到了 88.52% 的准确率,这一成绩在心脏病预测任务中属于优秀水平,说明降维后的特征仍有效保留了区分健康 / 患病状态的关键信息,整体实现了 “维度简化” 与 “模型性能” 的良好平衡。
2025-12-29 23:27:09
249
原创 Day22 推断聚类后簇的类型
三个簇的划分,本质是基于 “年龄 + 胸痛类型 + 心血管风险指标” 的组合差异,对应了心脏病风险从低到高的三类群体。定义:处于中年向老年过渡阶段,无典型胸痛症状,血压、胆固醇等风险指标处于中间区间,心脏病风险介于簇 0 与簇 1 之间。定义:以中年群体为主,胸痛表现不固定,但血压、胆固醇等心血管风险指标均处于较低区间,是心脏病风险相对偏低的群体。定义:以老年群体为主,伴随典型心绞痛症状,同时血压、胆固醇等风险指标偏高,是心脏病风险相对较高的群体。胸痛类型几乎全为 0 类(典型心绞痛,心脏病典型症状);
2025-12-24 14:26:43
251
原创 Day 21 常见聚类算法
层次聚类树状图直观呈现了心脏病数据集样本的簇合并过程,纵坐标代表簇间合并差异度(值越小表明簇间相似度越高),横坐标对应不同阶段的簇分组;底部小簇因相似度高优先合并,随纵坐标升高逐步形成中簇、大簇,合并差异度持续增大,而顶部最大差异处的切分结果与此前选定的 n=2 聚类数一致,进一步验证了该聚类数在心脏病数据无监督分组中的合理性。结果还是很差,可能与eps小有关,我调整成1.2/1.5都试了试,效果也不显著,结果差不多。2.聚类常见算法:kmeans聚类、dbscan聚类、层次聚类。二.dbscan聚类。
2025-12-23 17:04:57
342
原创 Day20 深入理解SHAP图
收入的影响方向最稳定(收入越高房价越高);而 “卧室数、人口数量” 等特征对房价几乎无影响,建模时可考虑剔除。影响加州房价的核心因素是地理区位(纬度 + 经度)和居民收入,其中。
2025-12-22 23:40:51
354
原创 Day 14 多目标优化算法
通过多目标优化,我们不再是得到一个单一的“最佳”模型,而是得到了一系列“各有所长”的优秀模型,这为实际应用提供了更大的灵活性。
2025-12-15 22:49:19
240
原创 Day12 贝叶斯优化可视化和随机森林的解读
1. 有序:可以通过索引取出来元素。二、字典的items方法。2. 不可变,不可修改。3. 可迭代、可切片。三、贝叶斯优化可视化。
2025-12-13 23:52:01
250
原创 Day 11 常见的调参方式
学习目标三种主流调参方法:网格搜索(GridSearchCV):穷举式搜索穷举所有参数组合、能找到最优解、计算量大,维度灾难、 参数空间小,计算资源充足随机搜索(RandomizedSearchCV):随机采样---只是一种思想随机采样参数组合、效率高于网格搜索 、可能错过最优解、参数空间大,中等计算资源贝叶斯优化(BayesSearchCV):智能优化基于概率模型智能搜索、高效,收敛快 、实现复杂 、 参数空间大,计算资源有限。
2025-12-12 23:55:30
348
原创 Day 9 热力图、子图的绘制
1.相关系数热力图热力图(Heatmap)是一种通过颜色深浅来展示数据矩阵的可视化方法。在数据分析中,我们常用热力图来展示特征之间的相关系数矩阵。常用配色方案:coolwarm: 冷暖色调,适合展示正负相关(蓝色表示负相关,红色表示正相关)RdYlGn: 红黄绿配色,直观展示好坏程度viridis: 色盲友好,从紫色到黄色的渐变plasma: 鲜艳的紫红黄配色YlOrRd: 从黄色到橙色到红色,适合展示强度2.子图。
2025-12-10 22:44:16
350
原创 Day8 机器学习数据预处理
对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理,包括缺失值的处理、离散特征的编码、连续特征的归一化or标准化、数据可视化。
2025-12-08 22:42:00
178
原创 Day5 离散特征的处理(独热编码)
现在在py文件中 一次性处理data数据中所有的连续变量和离散变量,注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看。4. 对独热编码后的变量转化为int类型。3. 对离散变量进行one-hot编码。按照示例代码过一遍,完成下列题目。2.填补缺失值(离散+连续)1.读取data数据。
2025-12-06 23:43:23
214
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅