上一章:机器篇——决策树(一)
下一章:机器篇——决策树(三)
本小节,细说 Hunt 算法(卡方检验),下一小节开始细说 ID3 算法。
二. 算法细说
1. 决策树的起源
hunt 算法是许多决策树算法的基础,包括 ID3、C4.5、CART等。Hunt 算法通过递归方式建立决策树
2. Hunt 算法(卡方检验)
(1). 定义
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在大于比较理论频数和实际频数的吻合程度或拟合优化程度问题。
(2). 卡方检验的基本思想
①. 卡方检验是以 分布为基础的一种常用假设检验方法,它的无效假设
是:观察频数与期望频数没有差别
②. 首先假设 成立,基于此前提,计算出
值,它表示观察值与理论值之间的偏离程度。根据
分布及自由度可以确定在
假设成立的情况下获得当前统计量及更极端情况下的概率
。如果
值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚能认为样本所代表的实际情况和理论假设有差别。
(3). 卡方值的计算与意义
值表示观察值与理论值之间的偏离程度。计算这种偏离程度的思路如下:
①. 设 代表某个类别的观察频数,
代表基于
计算出的期望频数,
与
之差称为残差。
②. 显然,残差可以表示某一个类别观察值和理论值的偏差程度。但如果将残差简单相加以表示各类观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加之后会彼此抵消,总和仍然为零,为此,可以将残差平方之后求和。
③. 另一方面,残差大小是一个相对的概念,相对于期望频数为 10 时,期望频数为 20 的残差非常大,但相对于期望频数为 1000 的 20 残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
④. 进行上述操作后,就得到了常用的 统计量,其计算公式为:
:为
水平的观察频数
:为
水平的期望频数
:为总频数
:为
水平的期望频数概率,