在实际工作应用中,需要考虑多个影响因素,因此通常组合多个规则进行综合评判,比如a模型分xb模型分、模型分x变量等,如何筛选有效规则对上线后的结果至关重要,筛选方法通常有三种:建立n维矩阵、决策树和xxx。
1-矩阵组合
矩阵组合是一种“画格子”的方法,如下图所示,通过特征交叉,筛选出符合目标的客户。该方法实际应用较多,优点在于容易解释、方便控制调整;但当变量维度增加时,难以从大量小格子里筛选满足业务目标的规则,这会带来极大的工作量。
2-决策树
决策树的好处在于,可根据信息增益、信息增益率等指标,自动进行人群细分。但缺点也较为明显:①缺乏业务合理性,分裂时完全依赖于Gini系数等指标,同时有些cutoff非整数,需人工调整;②过拟合现象;③有监督自动学习,无法人工介入,不易调整 。
from sklearn import tree
import pydotplus #决策树可视化
import pandas as pd
from IPython.display import Image
train_y_col = ['y_zybz']
train_x_col = ['if_act_yf','if_uplift','util_rng_t','amt_rng_t','avail_amt_rng_t','if_pv','prob_rng_t']
Yt = df[train_y_col] # Y标签。
Xt = df[train_x_col] # X特征List
clf = tree.DecisionTreeClassifier(criterion='gini', # 选择切点使用的算法,默认是Gini系数。
splitter='best', # 切点使用的方法,默认是best最优。
max_depth=4, # 树的最大层数,一般最好四层以内。
min_samples_split=100, # 最小切点样本量,低于这个数字则不再分支。
min_samples_leaf=50, # 最小的叶子节点数,低于这个数字则不再分支。
max_leaf_nodes=12, # 最大的叶子节点数,即最多这么多叶子,多余的将会被剪枝。
class_weight={0:0.6,1:1}, # 标签0和1的样本权重。
min_impurity_decrease=0.0) # 最小的信息熵阈值,低于这个数字则不再分支。
clf = clf.fit(Xt,Yt)
dot_data = tree.export_graphviz(clf, out_file=None,
feature_names=Xt.columns,
class_names=True,
proportion=True, # 是否输出比例。
filled=True,rounded=True,
special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())