机器篇——决策树(二) 细说 Hunt 算法(卡方检验)

最新推荐文章于 2022-06-06 15:26:20 发布

万道一

最新推荐文章于 2022-06-06 15:26:20 发布

阅读量3.8k

点赞数

分类专栏： AI章文章标签：机器学习

本文链接：https://blog.csdn.net/qq_38299170/article/details/103721920

版权

返回主目录

返回决策树目录

上一章：机器篇——决策树(一)

下一章：机器篇——决策树(三)

本小节，细说 Hunt 算法(卡方检验)，下一小节开始细说 ID3 算法。

二. 算法细说

1. 决策树的起源

hunt 算法是许多决策树算法的基础，包括 ID3、C4.5、CART等。Hunt 算法通过递归方式建立决策树

2. Hunt 算法(卡方检验)

(1). 定义

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在大于比较理论频数和实际频数的吻合程度或拟合优化程度问题。

(2). 卡方检验的基本思想

①. 卡方检验是以 $\large x^2$ 分布为基础的一种常用假设检验方法，它的无效假设 $\large H_{0}$ 是：观察频数与期望频数没有差别

②. 首先假设 $\large H_{0}$ 成立，基于此前提，计算出 $\large x^2$ 值，它表示观察值与理论值之间的偏离程度。根据 $\large x^2$ 分布及自由度可以确定在 $\large H_{0}$ 假设成立的情况下获得当前统计量及更极端情况下的概率 $\large p$ 。如果 $\large p$ 值很小，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；否则就不能拒绝无效假设，尚能认为样本所代表的实际情况和理论假设有差别。

(3). 卡方值的计算与意义

$\large x^2$ 值表示观察值与理论值之间的偏离程度。计算这种偏离程度的思路如下：

①. 设 $\large A$ 代表某个类别的观察频数， $\large E$ 代表基于 $\large H_{0}$ 计算出的期望频数， $\large A$ 与 $\large E$ 之差称为残差。

②. 显然，残差可以表示某一个类别观察值和理论值的偏差程度。但如果将残差简单相加以表示各类观察频数与期望频数的差别，则有一定的不足之处。因为残差有正有负，相加之后会彼此抵消，总和仍然为零，为此，可以将残差平方之后求和。

③. 另一方面，残差大小是一个相对的概念，相对于期望频数为 10 时，期望频数为 20 的残差非常大，但相对于期望频数为 1000 的 20 残差就很小了。考虑到这一点，人们又将残差平方除以期望频数再求和，以估计观察频数与期望频数的差别。

④. 进行上述操作后，就得到了常用的 $\large x^{2}$ 统计量，其计算公式为：

$\LARGE x^{2} = \sum \tfrac{(A - E)^2}{E} = \sum_{i = 1}^{k} \tfrac{(A_{i} - E_{i})^2}{E_{i}} = \sum_{i = 1}^{k}\tfrac{(A_{i} - np_{i})^2}{np_{i}}$

$\large A_{i}$ ：为 $\large i$ 水平的观察频数

$\large E_{i}$ ：为 $\large i$ 水平的期望频数

$\large n$ ：为总频数

$\large p_i$ ：为 $\large i$ 水平的期望频数概率，

最低0.47元/天解锁文章

万道一

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
机器篇——决策树(二) 细说 Hunt 算法(卡方检验)

返回主目录返回决策树目录上一章：机器篇——决策树(一)下一章：机器篇——决策树(三)本小节，细说Hunt 算法(卡方检验)，下一小节开始细说 ID3 算法。二. 算法细说 1. 决策树的起源 hunt 算法是许多决策树算法的基础，包括 ID3、C4.5、CART等。Hunt 算法通过递归方式建...
复制链接

扫一扫

专栏目录