- 博客(11)
- 收藏
- 关注
原创 金融风控训练营Task03 特征工程学习笔记
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:AI训练营金融风控-阿里云天池1、了解缺失值填充方法2、了解时间格式特征的处理方法3、了解类别特征处理方法4、了解异常值处理方法1、首先将数据集按特征分为数值型和类别型,然后分别对数值型特征缺失值进行中位数或者均值填充,对类别型特征缺失值进行众数填充,且用训练集的值对测试集进行填充,以防信息泄露2、将时间格式特征转化成整型3、类别特征处理1、为何文中用众数填充类别型缺失值时未生效?类别型特征缺失值填充需逐个处理,并在返回的众数上加上索引:d
2024-09-11 17:24:47 950
原创 金融风控训练营Task02 EDA探索性数据分析学习笔记
1、在进行数值连续性特征图形化分析时,可以在distplot中使用参数fit=norm,查看特征分布是否服从正态分布,对明显不符合正态分布的特征进行对数化处理。
2024-08-22 16:33:38 418
原创 金融风控训练营Task01 赛题理解学习笔记
2、准确率、精确率、召回率是PR曲线、ROC曲线、KS曲线的三个基本概念,准确率为模型预测正确的样本数量占总样本数量的比例,精确率为模型预测正确的真正类样本数量占所有预测为真正类样本数量的比例,召回率为模型正确预测为真正类的样本数量占所有真正类样本数量的比例。ROC曲线:横轴为假正类率,纵轴为真正类率(召回率),对样本类别分布变化不敏感,适用于对比不同模型的性能。KS曲线:横轴为选定的阀值,纵轴为真正类率和假正类率,KS曲线的峰值即为模型对应的最佳阀值。2、了解PR、ROC和KS之间的区别。
2024-08-19 14:42:56 221
原创 数据挖掘训练营-模型融合学习笔记
模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法。
2024-04-15 16:15:05 207 1
原创 数据挖掘训练营-建模调参学习笔记
线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策树;模型对比:常用线性模型;常用非线性模型;模型调参:贪心调参方法;网格调参方法;贝叶斯调参方法;由于相关算法原理篇幅较长,本文推荐了一些博客与教材供初学者们进行学习。
2024-03-22 17:09:10 1734 1
原创 数据挖掘训练营-特征工程学习笔记
异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(转换到 [0,1] 区间);针对幂律分布,可以采用公式:数据分桶:等频分桶;等距分桶;Best-KS 分桶(类似利用基尼指数进行二分类);卡方分桶;缺失值处理:不处理(针对类似 XGBoost 等树模型);删除(缺失数据太多);
2024-02-21 11:27:19 886
原创 数据挖掘训练营-数据分析学习笔记
载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy;可视化库 matplotlib、seabon;其他;载入数据:载入训练集和测试集;简略观察数据(head()+shape);数据总览:通过describe()来熟悉数据的相关统计量通过info()来熟悉数据类型判断数据缺失和异常查看每列的存在nan情况异常值检测了解预测值的分布总体分布概况(无界约翰逊分布等)查看skewness and kurtosis。
2024-02-19 11:40:32 1590 1
原创 阿里云天池龙珠计划深度学习训练营打卡-超分辨实战
import os# 将环境变了“TORCH_HOME”设置为当前路径# 生成器损失定义# 加载预训练的VGG模型# 由于vgg.features返回的是包含31个层结构的容器,因此下面语句等价于:# 取消所有参数的梯度计算,预加载的网络无需再次训练self.mse_loss = nn.MSELoss() # MSE损失self.tv_loss = TVLoss() # TV平滑损失# 对抗损失,
2024-01-31 16:58:13 2015
原创 阿里云天池龙珠计划深度学习训练营打卡-DCGAN生成微笑表情实战
权重初始化函数,为生成器和判别器模型初始化# 取得模块的名称= -1:# 卷积层的权重初始化为均值0,标准差0.02的正态随机数= -1:# 归一化层的权重初始化为均值1,标准差0.02的正态随机数# 归一化层的偏置初始化为0# 因为归一化层中添加偏置,所以卷积层不加偏置# 激活输出覆盖原有数据nn.Tanh()# Tanh激活的输出值范围[-1,1]
2024-01-18 19:54:26 851 1
原创 阿里云天池龙珠计划深度学习训练营打卡-DCGAN生成手写数字图片实战
为两个模型定义损失函数和优化器。criterion = nn.BCELoss() # 定义损失函数,适用于二分类问题# 创建一批潜在向量,我们将使用它们来可视化生成器的生成过程real_label = 1. # “真”标签fake_label = 0. # “假”标签# 为生成器和判别器定义优化器。
2024-01-16 11:34:56 938 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人