统计分析：置信区间

最新推荐文章于 2024-05-19 16:02:24 发布

呀呀培培

最新推荐文章于 2024-05-19 16:02:24 发布

阅读量3.5k

点赞数

分类专栏：统计分析文章标签：统计学

统计分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

决策树 $T$ 构建好后，需要估计预测准确率。直观说明，比如 $N$ 条测试数据， $X$ 预测正确的记录数，那么可以估计 $acc = X/N$ 为 $T$ 的准确率。但是，这样不是很科学。因为我们是通过样本估计的准确率，很有可能存在偏差。所以，比较科学的方法是估计一个准确率的区间，这里就要用到统计学中的置信区间（Confidence Interval）。

设 $T$ 的准确率 $p$ 是一个客观存在的值，X的概率分布为 $X \sim B(N,p)$ ，即 $X$ 遵循概率为 $p$ ，次数为 $N$ 的二项分布（Binomial Distribution），期望 $E(X) = N*p$ ，方差 $Var(X) = N*p*(1-p)$ 。由于当 $N$ 很大时，二项分布可以近似有正态分布（Normal Distribution）计算，一般 $N$ 会很大，所以 $X \sim N(np,n*p*(1-p))$ 。可以算出， $acc = X/N$ 的期望 $E(acc) = E(X/N) = E(X)/N = p$ ，方差 $Var(acc) = Var(X/N) = Var(X) / N2 = p*(1-p) / N$ ，所以 $acc ~ N(p,p*(1-p)/N)$ 。这样，就可以通过正态分布的置信区间的计算方式计算执行区间了。

正态分布的置信区间求解如下：

1）将 $acc$ 标准化，即

z = ( a c c - p ) p * ( 1 - p ) / N - - - - - - - - - - - \sqrt

$z=\frac{(acc-p)}{\sqrt{{p*(1-p)}/{N}}}$

2）选择置信水平 $\alpha= 95\%$ ，或其他值，这取决于你需要对这个区间有多自信。一般来说， $\alpha$ 越大，区间越大。

3）求出 $α/2$ 和 $1-α/2$ 对应的标准正太分布的统计量 $Z_{\alpha/2}$ 和 $Z_{(1-\alpha/2)}$ （均为常量）。然后解下面关于 $p$ 的不等式。 $acc$ 可以有样本估计得出。即可以得到关于 $p$ 的置信区间。

- Z α / 2 ≦ ( a c c - p ) p * ( 1 - p ) / N - - - - - - - - - - - \sqrt ≦ Z (1 - α / 2)

$-Z_{\alpha/2} \leqq \frac{(acc-p)}{\sqrt{{p*(1-p)}/{N}}} \leqq Z_{(1-\alpha/2)}$

呀呀培培

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计分析：置信区间

决策树 TT 构建好后，需要估计预测准确率。直观说明，比如 NN 条测试数据，XX 预测正确的记录数，那么可以估计 acc=X/Nacc = X/N 为 TT 的准确率。但是，这样不是很科学。因为我们是通过样本估计的准确率，很有可能存在偏差。所以，比较科学的方法是估计一个准确率的区间，这里就要用到统计学中的置信区间（Confidence Interval）。设 TT 的准确率pp是一个客观存在的值，
复制链接

扫一扫