决策树:决策树最大的好处就是训练速度快
从n个特征中选择一个来分成若干份。如果是离散的,就分成若干份,如果是连续的,就取某一个值作为阈值分类,那么现在的问题转化成为我们要选取哪一个特征来分类。因为有不同的标准,所以有了ID3,C4.5,CART这三种决策树。
假如现在有一个数据集,分别是红色的圆点和绿色的圆点,红色有70个,绿色有65个,把他们放到一起,随机抓取一个,它的颜色是红色还是绿色?我们可以算它的概率。红色概率有70/135,绿色概率为65/135。那我们可以预测是红色的,即使概率很接近百分之50。
但是在这个数据中,我们中间切一刀,假设左边的点红色10个,绿色60个,那么红色概率为1/7,绿色概率为6/7。如图2,下面两张图代表着切4刀和切5刀的情况。
信息熵:
一件事情发生的概率,和这个事件蕴含的信息量是有关系的。概率越低,它蕴涵的信息量越高。
概率是一个0-1之间的数。信息量是一个随着概率增加,不断减小的一个降函数,0的时候是一个很大的数,当概率为1的时候,我们可以认为信息量就是0,也就是说当概率是1的时候,就是没有任何信息量,他一定会发生,但是当概率等于0的时候,就是及其不可能发生的事情发生了。
我们知道如果事件x和y如果独立,那么有P(x,y)=P(x)*P(y),现在我们希望如果x和y独立,那么让