笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包)



每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~

———————————————————————————


本内容来源于CDA-DSC课程内容,原内容为《第16讲 汽车金融信用违约预测模型案例》。


建立违约预测模型的过程中,变量的筛选尤为重要。需要经历多次的筛选,在课程案例中通过了随机森林进行变量的粗筛,通过WOE转化+决策树模型进行变量细筛。


一、变量粗筛——随机森林模型


与randomForest包不同之处在于,party可以处理缺失值,而这个包可以。

[html]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. library(party)  
  2.    #与randomForest包不同之处在于,party可以处理缺失值,而这个包可以  
  3. set.seed(42)  
  4. crf<-cforest(y~.,control = cforest_unbiased(mtry = 2ntree = 50), data=step2_1)  
  5. varimpt<-data.frame(varimp(crf))  


party包中的随机森林建模函数为cforest函数,

mtry代表在每一棵树的每个节点处随机抽取mtry 个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。

varimp代表重要性函数。( R语言︱决策树族——随机森林算法)



二、R语言实现WOE转化+变量细筛

R语言中有一个woe包,可以实现WOE转化的同时,通过WOE值进行y~x的决策树建立,应用决策树的重要性来进行变量细筛。

woe包需要从github中下载得到:

#library(devtools)
#install_github("riv","tomasgreif")

library(woe)          
IV<-iv.mult(step2_2,"y",TRUE)   #原理是以Y作为被解释变量,其他作为解释变量,建立决策树模型
iv.plot.summary(IV)


summary(step2_3)

不能只看统计量,还要仔细的察看每个变量的取值情况。一般WOE建模数据是经过抽样的,因此可能需要多建模几次,看看不同的变量特征变化,再来进行变量细筛。


  • 5
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
研究思路: 1.明确研究目的和问题:本研究旨在对电动工程机械的研究现状进行分析,为进一步研究提供参考。具体问题括:电动工程机械的研究热点、研究趋势、研究方等。 2.确定研究范围和关键词:本文研究范围为电动工程机械,关键词括:electric engineering machinery, research status, literature review, data mining等。 3.设计文献抓取方案:选择合适的文献数据库,如CNKI、Web of Science、Scopus等,制定搜索策略,括关键词的组合、筛选条件的设置等。同时,制定文献筛选标准,对符合要求的文献进行筛选,保证研究的准确性和可靠性。 4.进行文献抓取和筛选:按照制定的搜索策略进行文献检索,获取符合条件的文献,并进行筛选。一般括文献初细筛两个阶段,初主要是根据文献的标题、摘要、关键词等信息进行初步筛选细筛则是对初结果进行进一步筛选,保证最终选出的文献符合研究要求。 5.进行文献分析和总结:对筛选出的文献进行综合分析,括文献内容、研究方、研究结果等方面,对电动工程机械的研究现状进行梳理和总结,为进一步研究提供参考。 主要研究内容: 1.电动工程机械的研究现状及发展趋势:通过文献调研,对电动工程机械的研究现状进行分析,括研究热点、研究进展、发展趋势等方面,为后续研究提供参考。 2.电动工程机械的关键技术研究:对电动工程机械相关的关键技术进行分析和总结,如电机、电控技术、传动技术等,为电动工程机械的研发提供技术支持。 3.电动工程机械的应用研究:对电动工程机械在各个领域的应用进行分析,括建筑工程、铁路工程、水利工程等方面,为电动工程机械的应用提供参考。 4.电动工程机械的市场分析:分析电动工程机械市场的发展现状、市场规模、市场竞争情况等方面,为电动工程机械企业的市场拓展提供参考。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值