一、概念
在决策树中,除了用似然估计推导出的信息熵损失函数之外,还有一个基尼系数(意思是在一个数据集中随机抽出两个样本,其标记不同的概率)
二、理解
怎么理解呢?针对一个贷款人员是否违约的二分类问题,1表示违约,0表示不违约,我们来描述一下。
当我们用模型对数据进行预测时,预测结果肯定是得到0和1两个标记类别的数据集,但值得注意的是,我们的模型预测准确率肯定达不到100%,所以预测标记为0的数据集肯定会包括实际标记为1的样本。此时我们从预测标记为0的数据集中随机抽出两个样本,其中实际标记为0的用户的占比为p,实际为1的用户占比为(1-p),计算出这两个样本标记不同的概率为p(1-p),但同时我们还有预测标记为1的数据集,抽出两个样本,标记不同的概率也是p(1-p),此时我们就可以得到一个结果为p(1-p)+(1-p)p,这代表了我们模型的预测效果的好坏。
假设我们的模型是三分类呢?预测标记为0的类别中实际标记为0的样本占比为p0;预测标记为1的类别中实际占比1的样本占比为p1;2类别占比为p2。则分别从三个类别从都抽取出两个样本,得出每