1.基本定义:
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
2.基本结构:
决策树是一种用于对实例进行分类的树形结构,由节点和有向边组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶子节点表示一个分类。如图3-1构造了一个假象的邮件分类系统,它首先检测发送邮件域名地址。如果地址为myEmployer.com,则将其放在分类“无聊时需要阅读的邮件”中。如果不是,则检查邮件内容里是否包含单词“曲棍球”,如果包含则将邮件归类到“需要及时处理的朋友邮件”,如果不包含则将邮件归类到“无需阅读的垃圾邮件”。
3.构造决策树:
首先我们使用
信息论
划分数据集,然后编写代码理论应用到具体的数据集上,最后编写代码构建决策树。
信息论基础:
熵:
熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:
其中n代表X的n种不同的离散取值。而pi代表了X取值为i的概率,log为以2为底的对数。
条件熵:
它度量了我们的X在知道Y以后剩下的不确定性。表达式如下: