规则组合方法

在实际工作应用中,需要考虑多个影响因素,因此通常组合多个规则进行综合评判,比如a模型分xb模型分、模型分x变量等,如何筛选有效规则对上线后的结果至关重要,筛选方法通常有三种:建立n维矩阵、决策树和xxx。

1-矩阵组合

矩阵组合是一种“画格子”的方法,如下图所示,通过特征交叉,筛选出符合目标的客户。该方法实际应用较多,优点在于容易解释、方便控制调整;但当变量维度增加时,难以从大量小格子里筛选满足业务目标的规则,这会带来极大的工作量。

2-决策树

决策树的好处在于,可根据信息增益、信息增益率等指标,自动进行人群细分。但缺点也较为明显:①缺乏业务合理性,分裂时完全依赖于Gini系数等指标,同时有些cutoff非整数,需人工调整;②过拟合现象;③有监督自动学习,无法人工介入,不易调整 。

from sklearn import tree
import pydotplus #决策树可视化
import pandas as pd 
from IPython.display import Image

train_y_col = ['y_zybz']
train_x_col = ['if_act_yf','if_uplift','util_rng_t','amt_rng_t','avail_amt_rng_t','if_pv','prob_rng_t']
Yt = df[train_y_col] # Y标签。
Xt = df[train_x_col] # X特征List

clf = tree.DecisionTreeClassifier(criterion='gini', # 选择切点使用的算法,默认是Gini系数。
            splitter='best', # 切点使用的方法,默认是best最优。
            max_depth=4, # 树的最大层数,一般最好四层以内。
            min_samples_split=100, # 最小切点样本量,低于这个数字则不再分支。
            min_samples_leaf=50, # 最小的叶子节点数,低于这个数字则不再分支。
            max_leaf_nodes=12, # 最大的叶子节点数,即最多这么多叶子,多余的将会被剪枝。
            class_weight={0:0.6,1:1}, # 标签0和1的样本权重。
            min_impurity_decrease=0.0) # 最小的信息熵阈值,低于这个数字则不再分支。
clf = clf.fit(Xt,Yt)

dot_data = tree.export_graphviz(clf, out_file=None,
                                feature_names=Xt.columns,
                                class_names=True,
                                proportion=True, # 是否输出比例。
                                filled=True,rounded=True,
                                special_characters=True)

graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())

3-prim方法

PRIM规则发现算法在风控中的应用 - 知乎 (zhihu.com)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值