统计分析:置信区间

决策树 T 构建好后,需要估计预测准确率。直观说明,比如 N 条测试数据, X 预测正确的记录数,那么可以估计 acc=X/N T 的准确率。但是,这样不是很科学。因为我们是通过样本估计的准确率,很有可能存在偏差。所以,比较科学的方法是估计一个准确率的区间,这里就要用到统计学中的置信区间(Confidence Interval)。

T 的准确率 p 是一个客观存在的值,X的概率分布为 XB(N,p),即 X 遵循概率为 p ,次数为 N 的二项分布(Binomial Distribution),期望E(X)=Np,方差 Var(X)=Np(1p) 。由于当 N 很大时,二项分布可以近似有正态分布(Normal Distribution)计算,一般 N 会很大,所以 XN(np,np(1p)) 。可以算出, acc=X/N 的期望 E(acc)=E(X/N)=E(X)/N=p ,方差 Var(acc)=Var(X/N)=Var(X)/N2=p(1p)/N ,所以 acc N(p,p(1p)/N) 。这样,就可以通过正态分布的置信区间的计算方式计算执行区间了。

正态分布的置信区间求解如下:

1) 将 acc 标准化,即

z=(accp)p(1p)/N

2) 选择置信水平 α=95% ,或其他值,这取决于你需要对这个区间有多自信。一般来说, α 越大,区间越大。

3) 求出 α/2 1α/2 对应的标准正太分布的统计量 Zα/2 Z(1α/2) (均为常量)。然后解下面关于 p 的不等式。acc可以有样本估计得出。即可以得到关于 p 的置信区间。

Zα/2(accp)p(1p)/NZ(1α/2)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值