R语言机器学习建模标准流程

本文详细介绍了使用R语言进行信用模型建模的标准流程,包括确定预测目的、样本选择、数据时间窗口设定、数据源确定、变量衍生与处理、模型建立与评估等关键步骤,强调了在每个阶段应注意的要点,如数据新鲜度、样本量、特征工程、模型效果评价等。
摘要由CSDN通过智能技术生成

前沿

统计学习是机器学习的基础,机器学习的方法代表了统计的最新发展,二则都是包含于数据科学之中;传统的统计模型大多对数据有一定的要求或者假设,模型本色也有比较明确的数学形式,模型的优劣主要依据对数据的分布假定得到的检验来判断;真实世界的数据分布做任何假设,因为更加的抽象和充满不确定性,高度非线性,难以用有限的数学公式来描述。机器学习对数据没有任何假定,产生的结果用交叉验证的方法来判断,摆脱了假设分布->明确数学模型来拟合->假设检验->p值的经典统计过程,交叉验证模型预测效果在具体实践中更符合对现实世界的描述。

1、确定预测目的

就是确定我们要解决什么问题,目的是什么?主要的商业价值在哪里?

2、确定样本范围

不同产品、不同渠道、不同场景和不同的商业模式等都会造成申请客户的组内方差较大;所以需要分析确定这些不同的样本之间在风险上和数据上是否存在较大的差异,如果差异较大,建议针对不同产品、渠道、场景和商业模式等单独抽取样本建立模型。根据预测目的不同,场景不同,会有有许多异常样本,故我们需要予以选择,这种异常样本通常是由其他外部因素造成的,比如医美分期、教育分期场景中,商户面造成的风险样本应该剔除,如服务纠纷导致的客户逾期,商户跑路导致的客户逾期等,都需要做清洗,这样拿到的样本才合理,样本的组内方差才会相对一致。

3、目标样本的选择

目标样本主要基于具体情况对好坏样本下一个合理的定义。这里的定义通常与好、坏样本的逾期天数,好样本的还款比例有关。但同时需要注意中间样本(即介于好坏之间的样本)的占比不要过高。坏样本通常卡一个最大逾期天数,这个逾期天数的限定需要看逾期的滚动率,比如从M1滚动到M2的比例只有10%,而M2滚动到M3的比例可能有80%,那么你就可以定义逾期大于30天以上的样本为坏样本,当然这个逾期天数并没有精确到具体期数,通常前期逾期大于30天的人要比后面逾期的人更坏一些,这个度可以自己琢磨。另外对于那种恶意逾期的人,即从第一期开始就没还款或只还过极少量贷款的人要不要放进来,也可以看具体情况,通常在模型建立完之后,需要看一下模型对这类人的预测效果。好样本通常卡一个小的逾期天数和一个较大的还款比例,这个逾期天数和还款比例也可以参照上文逾期滚动的方法来确定,比如,一个人逾期多少天之后会继续逾期下去,或者一个人一般还到多少期之后逾期的概率会非常小,据此就可以确定这两个阈值。

4、数据时间窗口
            分为建模数据窗口和验证数据窗口,建模数据是模型训练数据,验证数据是out of time验证以避免模型过拟合的数据,一般选取建模数据窗口后的一段时间。
数据时间窗口选取的原则
1)表现期成熟:也就观察期,表现期=借款期限+违约定义期限,比如借款30天的产品,以M1作为违约定义,那么放款后60天才能算表现期成熟。
2)保证数据新鲜度(有效性):模型是为了预测未来的数据,所以要保证建模的数据最接近未来,所以选取最近的数据。
3)保证数据周期性:很多贷款产品特别是pay day loan,逾期率具有时间周期性,发薪日逾期率明显低于其他时间,这种情况,数据窗口最好以月为单位选取。
4)保证样本量大小:根据经验,违约样本的数量需要至少1000个。

5、数据源确定

数据源可以分为内部数据(场景流程过程中产生的所有的数据)、外部数据(非内部数据资源,如:同盾、百融、聚信立等),同时也包括:爬虫数据源,具体就是确定此次建模能用到的所有数据表。按照数据属性也可以分为:基本属性信息、行为数据(贷前、贷中和贷后)、贷后还款数据(信贷领域)等,根据具体产品、场景等来定义,具体问题具体分析。
数据源选取的原则
1)数据覆盖率:数据覆盖率不能过低(不同模型算法要求不同,逻辑回归要求覆盖率较高,xgboost等数模型要求低些)。
2)数据稳定性:数据的计算逻辑是维持稳定的,不会发生数据定义的改变
3)未来有效性:在模型实施期,可能无法获取的数据,不能用于建模

6、变量衍生

变量衍生就是我们常说的特征工程,‘特征工程没做好,模型调到老’;特征工

  • 6
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值