金融风险分析
文章平均质量分 61
有碰到合适的项目会记录下来
rubyw
Data Analyst
让我们一起愉快地搞数据分析吧!
展开
-
金融风控:信用评分卡模型将用户违约率预测的概率转化为评分卡分数的方法
【代码】金融风控:信用评分卡模型将用户违约率预测的概率转化为评分卡分数的方法。原创 2024-10-22 16:40:46 · 174 阅读 · 0 评论 -
机器学习:分类模型常用的评估指标:混淆矩阵、精确率、召回率、F1 score、P-R曲线、ROC曲线、AUC面积、KS曲线
1、混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )2、准确率(Accuracy) 准确率是常用的一个评价指标,但是不适合样本不均衡的情况。原创 2024-10-22 16:36:35 · 559 阅读 · 0 评论 -
数据分箱:决策树得到特征的分箱区间后后怎么映射到原数据中?
在这个例子中,我们将原数据中的每个值与分箱区间进行比较,确定其所属的分箱,并将分箱结果映射回对应的区间描述,存储在新的列中。如果一个值不匹配任何分箱,可以根据需要进行特殊处理。原创 2024-10-20 01:56:52 · 329 阅读 · 0 评论 -
特征分箱:在10以内的分箱数中选择最优分箱
这个示例创建了一个简单的信用数据模拟,并计算了债务收入比,然后根据债务收入比的分箱计算了违约率。如果“credit_risk_analysis”库是用于信用风险分析的,它可能提供更复杂的功能,如特征工程、模型构建和评估等。如果你能提供更多关于“credit_risk_analysis”库的信息,比如它的功能描述、文档片段等,我可以为你提供更具体的代码示例。很抱歉,由于不清楚“credit_risk_analysis”库的具体内容和功能,我无法为你提供确切的代码示例。原创 2024-10-20 01:54:41 · 174 阅读 · 0 评论 -
数据分箱:如何确定分箱的最优数量?
需要注意的是,确定最优分箱数量通常是一个迭代的过程,需要结合多种方法进行尝试和评估,同时也要考虑计算成本和模型的可解释性。原创 2024-10-20 01:21:36 · 367 阅读 · 0 评论 -
特征编码:假如是树模型,还需要特征编码吗?
综上所述,在使用树模型时,是否需要进行特征编码要根据具体情况来决定。需要综合考虑特征的类型、数量、数据的分布以及模型的性能和可解释性等因素。如果使用树模型,不一定需要进行传统的特征编码,具体取决于特征的性质和数据的情况。原创 2024-10-20 01:18:45 · 401 阅读 · 0 评论 -
SelectFromModel:如何调整阈值来控制特征选择的数量?
需要注意的是,调整阈值是一个迭代的过程,需要根据具体的数据集和问题进行调整。同时,不同的阈值可能会对模型性能产生不同的影响,需要综合考虑特征数量和模型性能来选择合适的阈值。原创 2024-10-20 01:16:22 · 524 阅读 · 0 评论 -
机器学习特征工程中常用的特征编码方法
哑变量属于独热编码(One - Hot Encoding)的一种通俗说法。原创 2024-10-08 08:56:16 · 818 阅读 · 0 评论 -
数据分析中:相关系数计算方法怎么选择合适?
综上所述,选择合适的相关系数计算方法需要综合考虑数据类型、分布特点、变量关系以及样本大小等因素。在实际应用中,可以尝试多种方法,比较不同方法得到的结果,并结合专业知识和实际情况进行判断和解释。原创 2024-09-13 18:09:49 · 1254 阅读 · 0 评论 -
特征变量基于目标变量分箱后的结果应该怎么通过lift、iv、ks值进行评估分析比较是否合适?
在实际应用中,可以综合考虑 Lift、IV 和 KS 值来评估特征变量基于目标变量分箱后的结果。如果一个特征变量在多个评估指标上都表现良好,那么它可能是一个对目标变量有较强预测能力的重要特征。同时,也可以根据具体的业务需求和数据特点,选择合适的评估指标进行分析。原创 2024-09-11 10:39:20 · 601 阅读 · 0 评论 -
变量有重复值怎么分箱?
lenlen。原创 2024-09-11 10:15:27 · 161 阅读 · 0 评论 -
数据分桶:等宽分箱、等频分箱、分位数分箱,卡方分箱、WOE分箱、机器学习分箱
Python 实现相对复杂,通常需要借助专门的库。原创 2024-08-28 15:57:39 · 762 阅读 · 0 评论 -
机器学习:多个分类模型建模融合
【代码】机器学习:多个分类模型建模融合。原创 2024-08-12 10:51:45 · 152 阅读 · 0 评论 -
金融风控评估模型指标:KS、PSI
一个常见的情形是,离线评测模型的KS值很高,但是等到上线应用后,模型的KS很快就大幅“衰减”了,而且很多时候都是离线提升的越多,线上衰减越大。这里其实有个观察的误区,所谓的“衰减”是指在不同时期的不同用户集合上的KS值比较,而实际上不同集合间的KS绝对值是没有比较意义的。性能稳定性则是指,要保证预测分数区间对应的真实风险是相对稳定的,比如600-650分之间对应的逾期风险是1%,那么我们希望在所有月份上真实风险都能稳定在1%的水平附近。而在相同逾期率的水平下,新模型的通过率提升多少,可以提升整体规模多少。原创 2024-08-10 22:51:08 · 380 阅读 · 0 评论 -
金融风控融合指标:年华风险/人数逾期率
原创 2024-08-10 22:46:50 · 120 阅读 · 0 评论 -
金融风控场景下的数据分析、模型与策略
举例来说,在汽车贷款业务中,数据分析发现客户的工作年限、过去的信用违约记录以及车辆价值与贷款违约率密切相关。如果发现某一地区的逾期率突然上升,深入分析原因,可能是当地经济环境恶化,进而调整该地区的信贷政策。总之,金融风控中的数据分析为模型提供了坚实的数据基础,模型的输出结果为策略的制定提供科学依据,而策略的有效实施又能反馈到数据中,推动数据分析和模型的不断优化和改进,形成一个持续完善的风险管理闭环。在金融风控场景中,数据分析、模型与策略的相互作用和协同对于有效管理风险、保障金融机构的稳健运营至关重要。原创 2024-08-10 22:19:54 · 440 阅读 · 0 评论 -
金融风控数据分析主要关注指标:vintage、roll rate 和 迁移率
Vintage分析通过将不同时期放款的资产按照账龄进行分组,并跟踪其在每个账龄阶段的表现,为评估资产质量和风控策略效果提供了有力的工具。vintage在报表体系中,Vintage报表通常会呈现不同放款月份的资产在各个账龄阶段的详细指标,如逾期金额、逾期率、不良金额、不良率等。通过图表的形式,直观展示资产质量的变化趋势。2024 年 2 月 | 1 | 80,000 | 1.6% | 40,000 | 0.8%原创 2024-08-10 18:16:30 · 1171 阅读 · 0 评论 -
数据分析师笔试试卷五:SQL、Python——(YH)
现有用户购买行为表记录了客户ID、购买的产品ID和每次购买的金额,如下表,请统计每个产品购买金额前3的用户,输出产品ID、客户ID和购买金额。1.3-请用SQL语句查询每一天申请的订单数量,通过的数量,通过率,放款总金额,放款件均(base_apl 左关联 base_loan)接下来,可以先尝试 1.5 的平方,即 1.5×1.5 = 2.25,因为 2.25 小于 3,所以 大于 1.5。两个对象完全独立,互不影响。首先,我们知道 1 的平方是 1,2 的平方是 4,所以 的值在 1 到 2 之间。原创 2024-08-05 02:06:05 · 963 阅读 · 0 评论 -
Python:关于RollRate&Vintage的研究与应用
Y变量的界定要结合滚动率分析和Vintage分析来定义 滚动率分析用于对客户好坏程度进行定义,解决什么样程度的是好,什么样程度的是坏的问题 Vintage分析用于确定多长的表现期是比较合适的。所不同的是:滚动率侧重于分析客户逾期程度的变化,所以在做滚动率分析时,需要设置相对较长时间的观察期和表现期;Vintage可以用于分析客户表现的趋势、稳定的时间等,对于客户好坏程度的定义没有涉及, 而通过滚动率分析可以对客户好坏程度进行定义。放款后表现:观察每月审批通过后的客户第N个月的逾期比率,对比每月波动。原创 2023-05-22 16:53:35 · 1375 阅读 · 0 评论