机器篇——决策树(二) 细说 Hunt 算法(卡方检验)

 

返回主目录

返回决策树目录

 

上一章:机器篇——决策树(一)

下一章:机器篇——决策树(三)

 

 

本小节,细说 Hunt 算法(卡方检验),下一小节开始细说 ID3 算法。

 

二. 算法细说

        1. 决策树的起源

                 hunt 算法是许多决策树算法的基础,包括 ID3、C4.5、CART等。Hunt 算法通过递归方式建立决策树

 

        2. Hunt 算法(卡方检验)

             (1). 定义

                          卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在大于比较理论频数和实际频数的吻合程度或拟合优化程度问题。

             (2). 卡方检验的基本思想

                          ①. 卡方检验是以 \large x^2 分布为基础的一种常用假设检验方法,它的无效假设 \large H_{0} 是:观察频数与期望频数没有差别

                          ②. 首先假设 \large H_{0} 成立,基于此前提,计算出 \large x^2 值,它表示观察值与理论值之间的偏离程度。根据 \large x^2 分布及自由度可以确定在 \large H_{0} 假设成立的情况下获得当前统计量及更极端情况下的概率 \large p。如果 \large p 值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚能认为样本所代表的实际情况和理论假设有差别。

             (3). 卡方值的计算与意义

                          \large x^2 值表示观察值与理论值之间的偏离程度。计算这种偏离程度的思路如下:

                          ①. 设 \large A 代表某个类别的观察频数,\large E 代表基于 \large H_{0} 计算出的期望频数,\large A 与 \large E 之差称为残差。

                          ②. 显然,残差可以表示某一个类别观察值和理论值的偏差程度。但如果将残差简单相加以表示各类观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加之后会彼此抵消,总和仍然为零,为此,可以将残差平方之后求和。

                          ③. 另一方面,残差大小是一个相对的概念,相对于期望频数为 10 时,期望频数为 20 的残差非常大,但相对于期望频数为 1000 的 20 残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。

                          ④. 进行上述操作后,就得到了常用的 \large x^{2} 统计量,其计算公式为:

                                  \LARGE x^{2} = \sum \tfrac{(A - E)^2}{E} = \sum_{i = 1}^{k} \tfrac{(A_{i} - E_{i})^2}{E_{i}} = \sum_{i = 1}^{k}\tfrac{(A_{i} - np_{i})^2}{np_{i}}

                                   \large A_{i}:为 \large i 水平的观察频数

                                   \large E_{i}:为 \large i 水平的期望频数

                                   \large n:为总频数

                                   \large p_i:为 \large i 水平的期望频数概率,

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值