自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 LightGBM模型进行信贷违约预测时特征稳定性分析、拟合情况分析及优化

评估过拟合还是欠拟合,一般有两种曲线类型,横坐标表示train_sizes,纵坐标有两种方式,一种是loss or Mean Squared Error(均方误差,越小,说明模型描述数据越精确);查看学习曲线,发现train score很高,test score较低,说明模型过拟合。上一篇使用lightgbm模型对信贷数据违约预测,模型psi=0.5295,表明模型不稳定,不可用,为了对模型psi进行优化,主要是从两方面着手,一是模型特征稳定性分析,二是模型拟合情况分析,以及模型有针对性的调优。

2023-10-20 17:09:35 244 1

原创 LogisticRegression模型对信贷违约的预测以及模型AUC、KS、PSI指标的计算

Age大于96小于8的数值,MonthIncome删除大于3.0的数据,realestate删除大于50的数值,dependents删除大于50的数值。7.使用箱线图分析'Age','MonthIncome','OpenL','RealEstate','Dependents'变量分布特征。4.处理RevolvingRatio,DebtRatio百分比异常的数值,使用删除大于1的数值计算均值,替代大于1的百分比。10.相关性分析,删除相关性大于0.6的特征,'IncAvg'和'DeptAvg'

2023-06-14 17:16:50 954

原创 使用LightGBM模型对信贷数据预测,以及AUC、KS、PSI计算

AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。(二)大部分缺失值处理使用中位数进行缺失值填充的方法,对于部分类别型变量先变成浮点型进行中位数填充,再转换成类别型变量,包括Credit_Mix,Payment_Behaviour,Monthly_Balance。超参数调整(或优化)是确定可最大化模型性能的超参数的正确组合的过程,超参数的选择决定了训练的效率。模型PSI指标大于0.25,说明模型不能使用,那就下一篇研究如何调优lightgbm模型psi指标。

2023-06-14 09:19:25 1683 1

原创 评分卡建模面试常见问题

通过重编码可以提升变量的稳定性和预测能力,例如变量分箱,可以平滑变量,增强变量稳定性,进而在通过WOE映射将分箱映射为相应的WOE值,一方面实现对缺失值和异常值的适应,另一方面增强逻辑回归中与目标变量的线性相关性,提升模型效果。一个事件的几率是指该事件发生的概率与不发生的概率的比值,这个式子表示该事件的对数几率,等号右边是线性函数表达式 wx,表示输出Y=1的对数几率,是由输入x的线性函数表示的模型。先求似然函数,再求对数似然函数,对数似然函数是上凸函数,用梯度上升法求的最大值所对应的参数w的值;

2023-06-07 18:47:45 354 1

原创 使用LogisticRegression和LightGBM模型对信贷违约进行预测----基于kaggle比赛数据

3.分离数值型变量与类别型变量,发现有些数值型变量因为输入不规范,比如数值中含有字符(28_,_10000_等)被划分为类别型变量 ,比如 'Age','Annual_Income','Num_of_Loan', 'Num_of_Delayed_Payment', 'Changed_Credit_Limit','Credit_Mix','Monthly_Balance', 'Outstanding_Debt' ,'Amount_invested_monthly'等。三、分箱,woe编码,计算IV值。

2023-06-07 18:11:37 1077 1

原创 缺失值统计

空值赋值1空值赋值1非空值赋值1空值统计总数。

2023-02-11 12:35:19 72

原创 ==和!=

表示给temp【col】赋值:符合条件的赋值为1,不符合条件的赋值为0,整个col列按0-1分类。true时返回,非空值时为true,空值、0、none等为false。false时返回,空值、0、none等为false,非空时为true。

2023-02-10 16:22:51 59

原创 dataframe 构建方法

此种方式,key为列名,行索引为0。此种方式key为行索引。

2023-02-09 11:05:20 161 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除