自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 6.10 day 41

Flatten -> Dense (with Dropout,可选) -> Dense (Output)1. 输入 → 卷积层 → Batch归一化层(可选) → 池化层 → 激活函数 → 下一层。尝试手动修改下不同的调度器和CNN的结构,观察训练的差异。batch归一化:调整一个批次的分布,常用与图像数据。特征图:只有卷积操作输出的才叫特征图。调度器:直接修改基础学习率。卷积神经网络定义的写法。

2025-06-10 23:35:45 149

原创 6.9 day40

仔细学习下测试和训练代码的逻辑,这是基础,这个代码框架后续会一直沿用,后续的重点慢慢就是转向模型定义阶段了。dropout操作:训练阶段随机丢弃神经元,测试阶段eval模式关闭dropout。展平操作:除第一个维度batchsize外全部展平。彩色和灰度图片测试和训练的规范写法:封装在函数中。

2025-06-09 23:51:23 171

原创 6.8 day39

batchisize和训练的关系。图像数据的格式:灰度和彩色数据。

2025-06-08 23:32:59 151

原创 6.6 day38

Dataset类的__getitem__和__len__方法(本质是python的特殊方法)了解下cifar数据集,尝试获取其中一张图片。minist手写数据集的了解。Dataloader类。

2025-06-06 23:47:42 458

原创 6.5 day37

对信贷数据集训练后保存权重,加载权重后继续训练50轮,并采取早停策略。保存全部信息checkpoint,还包含训练状态。过拟合的判断:测试集和训练集同步打印指标。

2025-06-05 23:37:28 200

原创 6.4 day36

对之前的信贷项目,利用神经网络训练下,尝试用到目前的知识点让代码更加规范和美观。尝试进入nn.Module中,查看他的方法。定义损失函数和优化器。

2025-06-04 23:31:08 44

原创 6.3 day 35

知识点回顾:三种不同的模型可视化方法:推荐torchinfo打印summary+权重分布可视化进度条功能:手动和自动写法,让打印结果更加美观推理的写法:评估模式。

2025-06-03 23:58:39 357

原创 6.2 day34

类的call方法:为什么定义前向传播时可以直接写作self.fc1(x)ps:在训练过程中可以在命令行输入nvida-smi查看显存占用情况。GPU训练的方法:数据和模型移动到GPU device上。CPU性能的查看:看架构代际、核心数、线程数。GPU性能的查看:看显存、看级别、看架构代际。

2025-06-02 23:47:16 129

原创 5.31 day33

定义一个简单的全连接神经网络模型,包含一个输入层、一个隐藏层和一个输出层。查看显卡信息的命令行命令(cmd中使用)数据预处理(归一化、转换成张量)PyTorch和cuda的安装。定义层数+定义前向传播顺序。继承nn.Module类。模型训练(CPU版本)定义损失函数和优化器。定义损失函数和优化器。

2025-05-31 23:37:34 318

原创 5.30 day32

参考pdpbox官方文档中的其他类,绘制相应的图,任选即可。官方文档的阅读和使用:要求安装的包和文档为同一个版本。官方文档的检索方式:github和官网。绘图的理解:对底层库的调用。普通方法所需要的参数。

2025-05-30 23:46:27 130

原创 5.28 day31

尝试针对之前的心脏病项目ipynb,将他按照今天的示例项目整理成规范的形式,思考下哪些部分可以未来复用。项目文件夹中其他部分:拆分后的信贷项目,学习下如何拆分的,未来你看到的很多大项目都是类似的拆分方法。notebook文件夹内的ipynb文件,介绍下今天的思路。今日的示例代码包含2个部分。

2025-05-28 23:40:29 167

原创 5.27 day 30

from math import *:这种方法将 math 模块中的所有公开的函数和变量导入到当前的命名空间中,可以直接使用这些函数和变量而无需 math. 前缀。如果没有足够的上下文,很难判断一个特定的函数是来自 math 模块还是其他模块,尤其是当你导入了多个模块时。学习python本身就是个伪命题,就像你说学习科目一样,你没说清晰你学习的具体科目是什么,也没说学这个科目的哪些章节,毕竟每个科目都很大-----要有以终为始的思想。如下,●这将导入math模块中定义的所有公开函数和变量。

2025-05-27 23:55:12 575

原创 5.26 day 29

复习类和函数的知识点,写下自己过去29天的学习心得,如对函数和类的理解,对python这门工具的理解等,未来再过几个专题部分我们即将开启深度学习部分。装饰器思想的进一步理解:外部修改、动态。类方法的定义:内部定义和外部定义。

2025-05-26 23:48:08 210

原创 5.24 day28

calculate_perimeter():计算周长(公式:2×(长+宽))。is_square() 方法,判断是否为正方形(长 == 宽)。calculate_circumference():计算圆的周长(公式:2πr)。shape_type="rectangle":创建长方形(参数:长、宽)。calculate_area():计算圆的面积(公式:πr²)。shape_type="circle":创建圆(参数:半径)。calculate_area():计算面积(公式:长×宽)。

2025-05-24 23:47:51 199

原创 5.23 day26

编写一个装饰器 logger,在函数执行前后打印日志信息(如函数名、参数、返回值)# 开始执行函数 multiply,参数: (2, 3), {}# 函数 multiply 执行完毕,返回值: 6。装饰器的思想:进一步复用。注意内部函数的返回值。

2025-05-23 23:47:44 203

原创 5.20 day25

编写一个名为 calculate_circle_area 的函数,该函数接收圆的半径 radius 作为参数,并返回圆的面积。编写一个名为 calculate_average 的函数,该函数可以接收任意数量的数字作为参数(引入可变位置参数 (*args)),并返回它们的平均值。编写一个名为 print_user_info 的函数,该函数接收一个必需的参数 user_id,以及任意数量的额外用户信息(作为关键字参数)。函数的参数类型:位置参数、默认参数、不定参数。user_id 是一个必需的位置参数。

2025-05-20 23:29:48 419

原创 day 5.19

如果这段可能出错的代码位于 try 语句块中,程序流程会寻找并跳转到匹配的 except 语句块(如果存在)来处理这个异常。作业:理解今日的内容即可,可以检查自己过去借助ai写的代码是否带有try-except机制,以后可以尝试采用这类写法增加代码健壮性。except: 如果try块中的代码确实引发了特定类型的异常(或者任何异常,如果未指定类型),则执行此代码块。else: (可选)如果try块中的代码没有发生任何异常,则执行此代码块。try: 包含可能会引发异常的代码块。程序会首先尝试执行这里的代码。

2025-05-19 23:33:21 188

原创 5.18 day24

作业:对自己电脑的不同文件夹利用今天学到的知识操作下,理解下os路径。元组元组的特点:有序,可以重复,这一点和列表一样元组中的元素不能修改,这一点非常重要,深度学习场景中很多参数、形状定义好了确保后续不能被修改。很多流行的 ML/DL 库(如 TensorFlow, PyTorch, NumPy)在其 API 中都广泛使用了元组来表示形状、配置等。可以看到,元组最重要的功能是在列表之上,增加了不可修改这个需求元组的创建。

2025-05-18 23:52:22 479

原创 5.17 day23

整理下全部逻辑的先后顺序,看看能不能制作出适合所有机器学习的通用pipeline。ColumnTransformer和Pipeline类。转化器和估计器的概念。

2025-05-17 23:40:11 145

原创 5.16 day22

自行学习参考如何使用kaggle平台,写下使用注意点,并对下述比赛提交代码。聚类常见算法:kmeans聚类、dbscan聚类、层次聚类。numpy数组的创建:简单创建、随机创建、遍历、运算。原则t-sne或者pca进行2D或3D可视化。推断簇含义的2个思路:先选特征和后选特征。numpy数组的索引:一维、二维、三维。选择合适的算法,根据评估指标调参( )科研逻辑闭环:通过精度判断特征工程价值。通过可视化图形借助ai定义簇的含义。将聚类后的特征添加到原数据。数组的常见操作和形状。SHAP值的深入理解。

2025-05-16 23:36:04 137

原创 5.15 day21

知识点回顾:LDA线性判别PCA主成分分析t-sne降维自由作业:探索下什么时候用到降维?降维的主要应用?或者让ai给你出题,群里的同学互相学习下。可以考虑对比下在某些特定数据集上t-sne的可视化和pca可视化的区别。

2025-05-15 23:42:38 671

原创 5.14 day20

2025-05-14 23:39:55 630

原创 5.13 day19

常见的特征筛选算法方差筛选皮尔逊相关系数筛选lasso筛选树模型重要性shap重要性递归特征消除REF作业:对心脏病数据集完成特征筛选,对比精度。

2025-05-13 23:37:55 191

原创 5.12 day18

1. 你最开始聚类的时候,就选择了你想最后用来确定簇含义的特征,那么你需要选择一些特征来进行聚类,那么你最后确定簇含义的特征就是这几个特征,而非全部。如你想聚类消费者购买习惯,那么他过去的消费记录、购买记录、购买金额等等,这些特征都与消费者购买习惯有关,你可以使用这些特征来确定簇含义,一些其他的特征,如消费者年龄,工作行业则不考虑。---使用于你想构造什么,目前还不清楚。- **定义依据**:虽然总体财务状况尚可,但信用记录和资金用途的分化情况使其区别于第一个簇,因此定义为 “较稳健但信用有分化财务型”。

2025-05-12 23:48:22 280

原创 5.11 day17

以下是三种常用的聚类效果评估指标,分别用于衡量聚类的质量和簇的分离与紧凑程度:### 1. 轮廓系数 (Silhouette Score)- **定义**:轮廓系数衡量每个样本与其所属簇的紧密程度以及与最近其他簇的分离程度。- **取值范围**:[-1, 1]- 轮廓系数越接近 **1**,表示样本与其所属簇内其他样本很近,与其他簇很远,聚类效果越好。- 轮廓系数越接近 **-1**,表示样本与其所属簇内样本较远,与其他簇较近,聚类效果越差(可能被错误分类)。

2025-05-11 23:39:02 705

原创 day 16 5.10

知识点:numpy数组的创建:简单创建、随机创建、遍历、运算numpy数组的索引:一维、二维、三维SHAP值的深入理解## NumPy 数组基础笔记### 1. 理解数组的维度 (Dimensions)NumPy 数组的**维度 (Dimension)** 或称为 **轴 (Axis)** 的概念,与我们日常理解的维度非常相似。

2025-05-10 23:38:33 789

原创 5.9 day15

尝试找到一个kaggle或者其他地方的结构化数据集,用之前的内容完成一个全新的项目,这样你也是独立完成了一个专属于自己的项目。有数据地址的提供数据地址,没有地址的上传网盘贴出地址即可。尽可能与他人不同,优先选择本专业相关数据集。探索一下开源数据的网站有哪些?

2025-05-09 23:37:18 209

原创 5.7 day 14

2. **特征 A 的边际贡献:** 对于**每一个**特征组合,比较“包含特征 A 的组合的预测值”与“不包含特征 A 但包含其他相同特征的组合的预测值”之间的**差异**。**目标:** 理解复杂机器学习模型(尤其是“黑箱”模型,如随机森林、梯度提升树、神经网络等)**为什么**会对**特定输入**做出**特定预测**。* **SHAP 值之和:** 对于**任何一个**样本的预测,**所有特征的 SHAP 值加起来,再加上基准值,就精确地等于该样本的模型预测值**。权重确保了分配的公平性。

2025-05-07 23:28:26 773

原创 5.6 day13

在处理类别不平衡的数据集时,标准机器学习算法(如默认的随机森林)可能会过度偏向多数类,导致对少数类的预测性能很差。在处理类别不平衡的数据集时,标准机器学习算法(如默认的随机森林)可能会过度偏向多数类,导致对少数类的预测性能很差。目的: 在不改变已训练好的模型的情况下,根据业务需求调整精确率(Precision)和召回率(Recall)之间的权衡。目标: 提高模型对少数类的预测性能,通常关注召回率(Recall)、F1分数(F1-Score)、AUC-PR等指标。

2025-05-06 23:43:23 648

原创 5.5 day12

每只鸟的速度更新公式大致是,在原本速度基础上,加上一部分向自己的 pbest 飞行的 “动力”,再加上一部分向 gbest 飞行的 “动力”,然后根据新速度更新位置。在算法中,对应一个目标函数来衡量粒子位置(解)的优劣,就像用与食物的距离来判断鸟儿位置的好坏,距离食物越近,对应粒子的 “适应度” 越高。同时找出整个粒子群中适应度最佳的粒子位置,作为全局最优位置。更新速度和位置:依据速度更新公式和位置更新公式,结合惯性权重、学习因子以及随机数,迭代更新粒子的速度和位置,使粒子向个体最优和全局最优位置靠近。

2025-05-05 22:58:25 428

原创 5.4 day11

核心优势: 它不是随机选择下一个点,而是根据先前评估的结果建立一个概率模型(通常是高斯过程),预测哪些参数组合可能产生更好的结果,并据此选择下一个评估点。- 需要定义参数的分布,而不是固定的列表。所以如果不做交叉验证,就需要划分验证集和测试集,但是很多调参方法中都默认有交叉验证,所以实际中可以省去划分验证集和测试集的步骤。- 需要定义参数的搜索空间,与随机搜索类似,当搜索空间非常大时,它通常比网格搜索和随机搜索更有效。- 对于给定的计算预算,随机搜索通常比网格搜索更有效,尤其是在高维参数空间中。

2025-05-04 23:25:48 293

原创 4.30 day10

**Home Ownership**、**Purpose**、**Term**:这些对象类型的特征可以进行独热编码或标签编码。- **衍生新特征**:根据已有特征创建新的特征,可能会对模型性能有提升。在实际操作中,需要先进行缺失值处理,然后进行数据类型转换,接着处理异常值,再进行特征缩放,最后进行特征工程。- **特征选择**:通过相关性分析等方法,选择与目标变量“Credit Default”相关性较高的特征,去除相关性较低或冗余的特征,以降低模型的复杂度和过拟合的风险。1. **缺失值处理**

2025-04-30 11:22:25 640

原创 4.29day9

之所以这个函数很有用,是因为它允许我们同时迭代一个序列,并获取每个元素的索引和值。iterable -- 迭代对象,迭代对象可以是列表、元组、字典、字符串等。遍历一个包含特征名称的列表,然后打印出每个特征名称及其对应的索引。enumerate()函数返回一个迭代对象,该对象包含索引和值。语法:enumerate(iterable, start=0)尝试对着心脏病数据集绘制热力图和单特征分布的大图。返回一个迭代对象,该对象包含索引和值。start -- 索引的开始值。介绍了热力图的绘制方法。

2025-04-29 16:05:12 932

原创 4.27day8

对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理。连续特征的处理:归一化和标准化。

2025-04-27 23:45:39 181

原创 4.26day7

选取age,绘制箱线图。可以发现数据无缺失值。

2025-04-26 22:17:03 129

原创 4.25day6

如果number of open accounts的值太多 就会很散,不美观,所以这时候采取分组的措施。连续变量也可以绘制类似于直方图的图像,可以用核密度估计来完成边缘的柔和化。单特征可视化:连续变量箱线图(核密度直方图)、离散特征直方图。初识matplotlib库。箱线图美化--->直方图。特征可视化,找到连续特征。绘制离散变量和标签的关系。绘制特征和标签的关系。特征和标签关系可视化。

2025-04-25 23:37:35 205

原创 4.24day5

现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。3. 对独热编码后的变量转化为int类型。先按照示例代码过一遍,然后完成下列题目。2. 对离散变量进行one-hot编码。均值补全缺失值,并查看是否补全成功。对独热编码的类型改为int类型。3. 转换独热编码到int类型。将bool变量转化为int型。4.对所有缺失值进行填充。4. 填补每一列的缺失值。1. 读取data数据。查看是否修改成独热编码。读取数据,并查看属性。

2025-04-24 22:07:27 147

原创 4.23day4

按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值。打开数据(csv文件、excel文件)打开数据(csv文件、excel文件)查看数据(尺寸信息、查看列名等方法)初识pandas库与缺失数据的补全。利用循环补全所有列的空值。利用循环补全所有列的空值。众数、中位数填补空值。众数、中位数填补空值。

2025-04-23 23:01:46 203

原创 4.22day3

创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。计算当前 tech_list 的长度,并将结果存储在变量 current_length 中。向 tech_list 的末尾添加一个新的字符串元素 “JavaScript”。获取列表中的第一个元素,并将其存储在变量 first_tech 中。移除列表中的元素 “Go”。获取到的第一个技术名称。

2025-04-22 22:13:35 145

原创 4.21day2@浙大疏锦行

题目: 定义两个整数变量,score_a 赋值为 75,score_b 赋值为 90。比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。题目: 定义两个字符串变量,str1 赋值为 “Hello”,str2 赋值为 “Python”。

2025-04-21 20:26:08 214

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除