原创 维希安 (微信公众号:南雨潇湘) 2021-07-29 01:11
收录于合集
#excel18个
#决策树1个
#算法9个
#数据分析13个
决策树是一种有监督学习的算法,给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本,可以得到一个决策树,这个决策树能够对新的数据给出正确的分类。
学习决策树需要理解两个重要的概念:
熵:(ID3由增熵(Entropy)原理来决定哪个做父节点)
样本集合不纯度,熵越小,集合不纯度越低,熵越小,不确定性越小。公式如下:
所以当Entropy最大为1的时候,是分类效果最差的状态,当它最小为0的时候,是完全分类的状态。因为熵等于零是理想状态,一般实际情况下,熵介于0和1之间。
基尼不纯度:(CART分类回归树用来决定如何分裂)
从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率。如果我们的数据集中有C个分类,一个数据点正好是第i个分类的概率是p(i)&#x