0.前言:什么是决策树
决策树:可以帮助我们降低选择的混乱程度。
例如我们判断一个人是否需要运动,在不考虑其他因素的情况下,运动和不运动的概率各占50%,但是具体要怎么选择,我们是不清楚的。于是我们可以引入一些参考条件(是否心脏病/是否胸痛/血液循环状况是否良好/动脉血管是否有阻塞),将这些参考条件生成如下的决策树,可以帮助我们去做选择。
根结点:如图所示只有子节点,没有父节点的节点,叫做根节点。
内部节点(节点):如图所示既有父节点,也有子节点的节点。它也被称为节点。
叶子结点:如图所示仅仅只有父节点的节点叫做叶子结点。
1.ID3算法
1.1信息熵
在上面我们提到决策树可以帮助我们降低选择的混乱程度,而熵可以表示混乱程度,对一件事越混乱(越不确定)熵就越大。
注意:在计算熵的时候,用以2,10,自然对数e为底都可以
1.2信息增益
在上面的例子中我们提到,我们引入了几个参考条件帮助我们判断一个人是否需要锻炼,即我们的标签是