规则组合方法-CSDN博客

本文链接：https://blog.csdn.net/choven_meng/article/details/128836111

文章探讨了在实际工作中结合多个因素进行决策的策略，包括使用矩阵组合法进行特征交叉筛选，利用决策树的自动化细分以及PRIM算法在风控中的应用。矩阵组合易于解释但面对高维数据时工作量大；决策树可能面临过拟合和业务合理性问题；PRIM算法则用于发现有效规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在实际工作应用中，需要考虑多个影响因素，因此通常组合多个规则进行综合评判，比如a模型分xb模型分、模型分x变量等，如何筛选有效规则对上线后的结果至关重要，筛选方法通常有三种：建立n维矩阵、决策树和xxx。

1-矩阵组合

矩阵组合是一种“画格子”的方法，如下图所示，通过特征交叉，筛选出符合目标的客户。该方法实际应用较多，优点在于容易解释、方便控制调整；但当变量维度增加时，难以从大量小格子里筛选满足业务目标的规则，这会带来极大的工作量。

2-决策树

决策树的好处在于，可根据信息增益、信息增益率等指标，自动进行人群细分。但缺点也较为明显：①缺乏业务合理性，分裂时完全依赖于Gini系数等指标，同时有些cutoff非整数，需人工调整；②过拟合现象；③有监督自动学习，无法人工介入，不易调整。

from sklearn import tree
import pydotplus #决策树可视化
import pandas as pd 
from IPython.display import Image

train_y_col = ['y_zybz']
train_x_col = ['if_act_yf','if_uplift','util_rng_t','amt_rng_t','avail_amt_rng_t','if_pv','prob_rng_t']
Yt = df[train_y_col] # Y标签。
Xt = df[train_x_col] # X特征List

clf = tree.DecisionTreeClassifier(criterion='gini', # 选择切点使用的算法，默认是Gini系数。
            splitter='best', # 切点使用的方法，默认是best最优。
            max_depth=4, # 树的最大层数，一般最好四层以内。
            min_samples_split=100, # 最小切点样本量，低于这个数字则不再分支。
            min_samples_leaf=50, # 最小的叶子节点数，低于这个数字则不再分支。
            max_leaf_nodes=12, # 最大的叶子节点数，即最多这么多叶子，多余的将会被剪枝。
            class_weight={0:0.6,1:1}, # 标签0和1的样本权重。
            min_impurity_decrease=0.0) # 最小的信息熵阈值，低于这个数字则不再分支。
clf = clf.fit(Xt,Yt)

dot_data = tree.export_graphviz(clf, out_file=None,
                                feature_names=Xt.columns,
                                class_names=True,
                                proportion=True, # 是否输出比例。
                                filled=True,rounded=True,
                                special_characters=True)

graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())