tvpvar模型的建模步骤_风控建模六部曲

1cce30d4d4770149352e4d50c07a9bbc.png

这期开始咱们聊聊风控建模的事情。在借贷这个场景下,建立风控模型的目的大都是为了预测某个客户未来逾期的概率。主要的逻辑就是根据过去预测未来,逾期客户的行为是相似的。先收集历史上已经逾期到一定阶段的客户,将这些人定义为坏客户或目标客户;另一些未逾期的人是好客户或非目标客户。然后,咱们就可以通过这些客户的历史行为表现数据来建立一个风控模型。

通常主要开发过程包括以下六个步骤(不同的模型步骤可能会有差别),如下图所示:

f1439d4f6b13c24fb2614cabcf7a92cb.png

步骤一:数据分析/数据评估

1、对数据和环境进行深入研究和分析,了解数据是否符合要求,并评估数据质量。

2、 根据数据收集和检测的标准以及方法,就数据进行有效的汇总。

步骤二:模型设计

1、讨论并定义风控模型的目标和开发参数。

2、讨论建模方法以及针对需求的设计方案,包括数据可获取性,数据局限性和重要参数决策,如观察 窗口、表现窗口、抽样计划等。

步骤三:建模数据准备

1、根据详细的数据分析结果以及开发所需的数据集合,为模型开发进行数据提取和准备。

2、数据推导,生成样本中的每个账户的预测变量、汇总变量等。

步骤四:细分分析

1、识别最优的群体细分,在此基础上开发一系列的模型,使得整体模型体系的预测能力达到最大化。

2、根据业务实际情况确定细分变量。

3、确定细分方案:确定开发最终模型的细分方案。

步骤五:模型的确定和文档撰写

1、模型的确定和文档撰写包括最终模型的开发和开发文档。

2、一旦模型子群体确定后,将对进入模型的每个变量产生一份特征变量分析报告。

3、最终模型建立 – 最终模型将在决定的细分方案上开发,从而将账户的风险与评分结果建立起函数关系。

步骤六:模型验证

1、 进行预留样本验证以保证模型的区分能力、排序能力。

2、 进行跨时间验证,检验在当前的数据环境下群体的稳定性。

以上就是开发风险模型的一个大致步骤,下期开始,咱们详细讲讲每一个步骤该做的事情。下期再见!

更多内容请关注微信公众号:XiaoXiong-WeiKe

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在开始使用代码之前, 请仔细阅读此文件。此文件夹包含以下文件:___________________________________________________________________________________1)其他代码: B. TVP-FAVAR: 估计一个 TVP FAVAR。此代码用于演示只有, 它应该作为一个出发点, 以了解评估的工作原理 (在前往多个使用 DMA 的模型案例) 2)预测代码:a. 竞争 FCIs: 从我们收集的4现有 FCIs 的预测联邦储备银行B. DMA_TVP_FAVAR: 动态模型平均/选择的预测 (DMA/DMS),与相对 noninformative 之前C. DMA_TVP_FAVAR_TS: 动态模型平均/选择的预测 (DMA/DMS),培训样本前(此代码仅用于在线附录)FAVAR_PC_DOZ: homoskedastic FAVAR 与校长的预测组分和 Doz 等 (2011) 因素的估计 3)完整示例代码:DMA_probabilities: 绘制时变 DMA 概率, 预期数量变量和由 DMA 暗示的家庭护理(使用此代码复制图 4 & 5) 此外, 文件夹 "函数" 包含在估计期间调用的有用函数 (例如, mlag2 创建 VAR 滞后, 并且 Minn_prior_KOOP 在系数之前实现我们的明尼苏达州类型). 文件夹数据包含-猜测什么。但是, 要小心, 因为那里有两个数据集。第一个是文章中使用的 (xdata.dat, other_FCIs, ydata.dat)。但是, 我还有一个具有81个财务变量 (xdata_all) 的数据集, 仅由演示代码 TVP FAVAR 调用。在这个代码中, 我给你一个选项来加载这两个数据集中的任何一个来提取家庭护理 (为了了解算法是如何工作的)。变量的名称在. 席子文件 xnames. 垫。 如何使用代码:在每个文件的开头, 我有一个叫做 "用户输入" 的部分。请随时试用它。默认设置是在纸张中使用的, 例如 nlag=4 是 FAVAR 中滞后的数目)。 但是, 默认值的遗忘/衰变因素 (称为 l_1, l_2, l_3, l_4 在代码中, 但表示为本文) 对应于 TVP-FAVAR 模型。为了估计 FAVAR 和 FA-TVP 模型 (见纸), 你需要改变遗忘因子的值。设置 l_3=1 (离开 l_1 = l_2 = 0.96, l_4 = 0.99) 给出了 FA TVP VAR, 而设置 l_3 = l_4 = 1 (离开 l_1 = l_2 = 0.96) 给你 heteroskedastic FAVAR。您还可以通过将所有遗忘因子设置为1来获得 homoscedastic FAVAR, 但这不是本文中使用的模型 (因为我们解释这具有较低的预测性能)。 我已经设置了代码 DMA_probabilities 为了打印文件中显示的数字, 以选择的模型为条件 (例如, 遗忘因素的默认设置会给出 TVP-FAVAR 的概率)。对于预测代码的事情是半自动的, 因为我不喜欢设置 MATLAB 来计算预测结果和打印乳胶表 (更多的编程意味着更多的错误机会, 因此, 我更喜欢在 Excel 中手动计算平均值)。在这方面, 如果你想要 MSFEs 这些可以在数组 MSFE_DMA 中的代码末尾找到 (对于 DMA 情况, 类似于其他文件中的其他预测)。为了获得所有变量的平均 MSFE, 只需在 MATLAB 中使用平均值 () 函数:挤压 (平均 (MSFE_DMA (1: 末端-1,:, 1), 1) '% 为 h=1 步挤压 (平均 (MSFE_DMA (1: 末端-2,:, 2), 1) '% 为 h=2 步挤压 (平均 (MSFE_DMA (1: 末端-3,:, 3), 1) '% 为 h=3 步挤压 (平均 (MSFE_DMA (1: 末端-4,:, 4), 1) '% 为 h=4 步 健康警告:虽然一个 TVP FAVAR 是微不足道的估计, 你很快就会意识到, 预测递归与 219= 524288 模型 (正如我们在 DMA), 是一个相当的任务。您将需要一个非常强大的 PC 和大量的耐心, 或者是一个集群的服务器和 MATLAB 的并行处理工具箱 (这是我实际上做的, 即我是在我的大学中央集群远程提交 PBS 工作)。 在您尝试在您的 PC 上运行 DMA 代码之前, 我建议您在使用单个模型估计和递归预测时需要花费多少时间。您可以使用原始 DMA_TVP_FAVAR 代码来执行此项。在用户输入中有设置: var_no_dma = 1; 选择不应包含在 DMA 中的变量。上面的设置采用第一个变量 (& P500), 检查 varnames 所有20个变量的名称和顺序, 并始终将其包含在每个模型中, 从而使代码在其余的 219模型中进行 DMA。如果设置: var_no_dma = 1:20; 然后所有20个变量都包含在每个模型中, 0 个变量包含在 DMA 中。因此, 这等同于估计没有 DMA 的完整模型。选择: var_no_dma = [1 3 5 9 12 15]; 将始终包含每个因子模型中的变量 (13、59、1215), 并要求代码在剩余的14个变量中执行 DMA (因而 214= 16384 模型, 这对于旧 pc 仍然是很麻烦的)。 运行代码时请小心, 我们不承担对旧 pc 中可能发生的 CPU 过载造成的硬件损坏的责任..。此代码不适合完成初学者。然而, 经验较少的 MATLAB 用户和/或博士生应该能够很容易地理解附加的代码结合仔细研究的论文。我们不提供对此代码的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值