部分依赖图显示了目标函数[2]与一组“目标”特征之间的依赖关系,边缘化了所有其他特征(补充特征)的值。由于人类感知的限制,目标特征集的大小必须很小(通常是一个或两个),因此目标特征通常从最重要的特征中选择(参见feature_importances_)。
此示例显示如何从加州住房数据集上培训的GradientBoostingRegressor获取部分依赖图。该示例取自[1]。
该图显示了四个单向和一个双向部分依赖图。单向PDP的目标变量是:收入中位数(MedInc),平均值。每户人口(AvgOccup),中位年龄(HouseAge)和平均值。每个家庭的房间(AveRooms)。
我们可以清楚地看到,房价中位数与收入中位数呈现线性关系(左上角),房价在平均收益率下降。每户人口增加(中上部)。右上图显示,一个地区的房屋年龄对(中位数)房价没有太大影响;每个家庭的平均房间也是如此。 x轴上的刻度线表示训练数据中特征值的十分位数。
具有两个目标特征的部分依赖图使我们能够可视化它们之间的相互作用。双向偏依赖图显示了房价中位数对房屋年龄和平均房价的关联值的依赖关系。每户人口。我们可以清楚地看到两个功能之间的相互作用:对于平均值。入住率大于2,房价几乎与房屋年龄无关,而对于小于2的房价,则对年龄有很大的依赖性。
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.cross_valid