努力学Python的木-CSDN博客

原创 DAY21常见的降维算法

作业：自由作业：探索下什么时候用到降维？降维的主要应用？或者让ai给你出题，群里的同学互相学习下。可以考虑对比下在某些特定数据集上t-sne的可视化和pca可视化的区别。特征数量远大于样本数量（如基因数据、文本数据、图像数据），导致计算效率低、存储需求高。维度灾难（Curse of Dimensionality）：高维数据中样本稀疏，距离计算失效（如KNN、K-Means表现变差）。示例：图像分类（如MNIST 784维 → PCA降至50维）。自然语言处理（词向量1000维 → 降维至100维）。多个特征

2025-07-24 23:05:34 851

原创 DAY20奇异值分解

对于任何矩阵（如结构化数据可以变为：样本*特征的矩阵，图像数据天然就是矩阵），均可做等价的奇异值SVD分解，对于分解后的矩阵，可以选取保留前K个奇异值及其对应的奇异向量，重构原始矩阵，可以通过计算Frobenius 范数相对误差来衡量原始矩阵和重构矩阵的差异。应用：结构化数据中，将原来的m个特征降维成k个新的特征，新特征是原始特征的线性组合，捕捉了数据的主要方差信息，降维后的数据可以直接用于机器学习模型（如分类、回归），通常能提高计算效率并减少过拟合风险。降噪：通常噪声对应较小的奇异值。

2025-07-23 18:52:28 361

原创 DAY19常见的特征筛选算法

皮尔逊相关系数筛选：针对于目标为连续问题的情况，他会计算特征于目标之间的相关系数，该相关系数介于-1和1之间，越大正相关越强越小负相关越强，越接近0表示相关性越弱。方差筛选：方差代表了数据的波动程度，方差越大，波动越大，进而特征的贡献程度也就可能更大，因此我们可以把方差趋近于0的特征给舍弃掉。但是这种方法可能会误删一些方差低但是有意义的特征。在实际工程过程中，可能存在很多的特征，但是为了避免不必要的计算，需要对特征进行筛选来选取合适的特征。特征筛选：利用特征的某些性质来筛选合适的特征，主要有如下三种。

2025-07-22 16:36:23 240

原创 DAY 18 推断聚类后簇的类型

聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。

2025-07-21 17:51:56 262

原创 DAY 17 常见聚类算法

知识点以下是三种常用的聚类效果评估指标，分别用于衡量聚类的质量和簇的分离与紧凑程度：定义：轮廓系数衡量每个样本与其所属簇的紧密程度以及与最近其他簇的分离程度。取值范围：[-1, 1] 轮廓系数越接近 1，表示样本与其所属簇内其他样本很近，与其他簇很远，聚类效果越好。轮廓系数越接近 -1，表示样本与其所属簇内样本较远，与其他簇较近，聚类效果越差（可能被错误分类）。轮廓系数接近 0，表示样本在簇边界附近，聚类效果无明显好坏。使用建议：选择轮廓系数最高的 k 值作为最佳簇数量。定义：CH 指数是簇间分散度

2025-07-18 18:23:28 1825

原创 DAY16数组的常见操作和形状

因为我们之前说了shap，这里涉及到数据形状尺寸的问题，所以需要在这一节说清楚，后续的神经网络我们将要和他天天打交道。知识点：1.numpy数组的创建：简单创建、随机创建、遍历、运算。2.numpy数组的索引：一维、二维、三维。3.SHAP值的深入理解。

2025-07-17 17:54:59 1781

原创 DAY15复习日

复习日仔细回顾一下之前14天的内容，没跟上进度的同学补一下进度。作业：尝试找到一个kaggle或者其他地方的结构化数据集，用之前的内容完成一个全新的项目，这样你也是独立完成了一个专属于自己的项目。链接：:特点：包含电机运行时多个传感器数据（温度、转速、电流、电压等）。适合回归任务（预测温度）或分类任务（预测故障）。

2025-07-16 17:30:44 196

原创 DAY 14 SHAP图的绘制

目标：理解复杂机器学习模型（尤其是“黑箱”模型，如随机森林、梯度提升树、神经网络等）为什么会对特定输入做出特定预测。SHAP 提供了一种统一的方法来解释模型的输出。核心思想：合作博弈论中的 Shapley 值SHAP (SHapley Additive exPlanations) 的核心基于博弈论中的 Shapley 值概念。想象一个合作游戏：玩家 (Players): 模型的特征 (Features) 就是玩家。游戏 (Game): 目标是预测某个样本的输出值。

2025-07-15 22:56:52 1762

原创 DAY13不平衡数据的调整

不平衡数据集的处理知识点：1.不平衡数据集的处理策略：过采样、修改权重、修改阈值。2.交叉验证代码。作业：从示例代码可以看到效果没有变好，所以很多步骤都是理想是好的，但是现实并不一定可以变好。这个实验仍然有改进空间，如下。1.我还没做是smote+过采样+修改权重的组合策略，有可能一起做会变好。2.我还没有调参，有可能调参后再取上述策略可能会变好。

2025-07-14 18:49:22 538

原创 DAY12 启发式算法

1.三种启发式算法的示例代码：遗传算法、粒子群算法、退火算法2.学习优化算法的思路（避免浪费无效时间）作业：今天以自由探索的思路为主，尝试检索资料、视频、文档，用尽可能简短但是清晰的语言看是否能说清楚这三种算法每种算法的实现逻辑，帮助深入理解。核心思想：1.这些启发式算法都是优化器。你的目标是找到一组超参数，让你的机器学习模型在某个指标（比如验证集准确率）上表现最好。2.这个过程就像在一个复杂的地形（参数空间）上寻找最高峰（最佳性能）。

2025-07-13 21:46:05 385

原创 DAY11 常见的调参方式

所以如果不做交叉验证，就需要划分验证集和测试集，单丝很多调参方法中都默认有交叉验证就，所以实际中可以省去划分验证集和测试集的步骤。每个模型都有自己的超参数，每个超参数都有一定的意义。对于信贷数据的其他模型，如LightGBM和KNN尝试用下贝叶斯优化和网格搜索。3.贝叶斯优化（2种实现逻辑，以及如何避开必须用交叉验证的问题）2.随机搜索（简单介绍，非重点，实战中很少用到，可以不了解）正常情况下，计算资源够用网格，计算资源不够用贝叶斯优化。4.time库的计时模块，方便后人查看代码运行时长。

2025-07-11 22:00:29 241

原创 DAY10机器学习建模与评估

知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估。

2025-07-10 17:55:54 320

原创 DAY 9 热力图和子图的绘制

知识点：热力图和子图的绘制介绍了热力图的绘制方法介绍了enumerate（）函数介绍了子图的绘制方法作业：尝试对着心脏病数据集绘制热力图和单特征分布的大图（包含几个子图）

2025-07-09 14:57:48 217

原创 DAY8 标签编码与连续变量处理

2.标签编码1.字典的简单介绍2.标签编码3.连续特征的处理：归一化和标准化作业：对心脏病数据集的特征用上述知识完成，一次性用所有的处理方式完成预处理，尝试手动完成，多敲几遍代码。1.字典的简单介绍字典：一种无需可变的容器，字典中的元素都是“键（key）：值（value）”对，“键”和“值”之间用冒号隔开，所有“键值对”放在一堆大括号“{}”中，元素之间用逗号分隔。在同一个字典中，“键”必须是唯一的，因此，“键”必须为不可变类型，“值”可以重复，值可以说任意类型。

2025-07-08 22:45:05 318

原创 DAY7复习日

针对之前学到的所有知识，针对心脏病项目的数据集来完成数据的预处理。（我们暂时还没说到标签编码、连续变量处理，所以可以忽略）

2025-07-07 17:54:16 158

原创 DAY6描述性统计

作业：去针对其他特征绘制单特征图和特征和标签的关系图，并且试图观察出一些有意思的结论。单特征可视化：连续变量箱线图（还说了核密度直方图）、离散特征直方图。内容回顾：数据初步可视化。箱线图美化--->直方图。特征和标签关系可视化。

2025-07-06 17:21:28 214

原创 DAY5离散特征的处理

注意是py文件中，所以每一步的输出是否正确需要你来使用debugger功能来逐步查看。现在在py文件中一次性处理data数据中所有的连续变量和离散变量。注意此时你可以借助下面的调试控制台来进行值的查看。先按照示例代码过一遍，然后完成下列题目。对独热编码后的变量转化为int类型。对离散变量进行one-hot编码。题目：离散特征的独热编码。1. 读取data数据。4.对缺失值进行补充。

2025-07-05 21:27:56 204

原创 DAY 4 缺失值的处理

题目：初识pandas库与缺失数据的补全题目：初识pandas库与缺失数据的补全按照示例代码的要求，去尝试补全信贷数据集中的数值型缺失值打开数据（csv文件、excel文件）查看数据（尺寸信息、查看列名等方法）查看空值众数、中位数填补空值利用循环补全所有列的空值。完成后在py文件中独立完成一遍，并且利用debugger工具来查看属性（不借助函数显式查看）----养成利用debugger工具的习惯。

2025-07-04 17:51:44 605

原创 DAY 3 列表、循环和判断语句

创建一个包含三个字符串元素的列表 tech_list，元素分别为 “Python”, “Java”, “Go”。修改 tech_list 中的第二个元素（索引为 1），将其从 “Java” 更改为 “Ruby”。向 tech_list 的末尾添加一个新的字符串元素 “JavaScript”。- 高于35度：打印"红色预警：高温天气！- 28-35度：打印"黄色预警：天气炎热"- 20-27度：打印"绿色提示：适宜温度"- 低于20度：打印"蓝色预警：注意保暖"移除列表中的元素 “Go”。

2025-07-02 21:14:08 243

原创 DAY 2 字符串与比较运算

题目: 定义两个整数变量，score_a 赋值为 75，score_b 赋值为 90。比较 score_a 是否大于 score_b，将比较结果（布尔值）存储在变量 is_a_higher 中；比较 score_a 是否小于等于 score_b，将结果存储在变量 is_a_lower_or_equal 中；比较 score_a 是否不等于 score_b，将结果存储在变量 is_different 中。题目: 定义两个字符串变量，str1 赋值为 “Hello”，str2 赋值为 “Python”。

2025-07-02 14:15:37 199

原创 Day1打卡

定义三个变量abc，并分别将整数123赋值给它们。然后，使用print()函数将每个变量的值单独打印出来，每个值占一行。

2025-07-01 21:46:36 479

qq_43749630的博客