第5章 评估假设
对假设的精度进行经验评估是机器学习中的基本问题。
5.1 估计假设精度
5.1.1 样本错误率和真实错误率
样本错误率(Sample Error):假设 h 关于目标函数
f 和数据样本 S 的样本错误率(标记为errorS(h) 为
errorS(h)≡1n∑x∈Sδ(f(x),h(x))其中, n 为
S 中样例的数量,而 δ(f(x),h(x)) 在 f(x)≠h(x) 时为1,否则为0。真实错误率(True Error):假设 h 关于目标函数
f 和分布 D 的真实错误率(标记为errorD(h) 为 h 按D 分布随机抽取实例被误分类的概率:
errorD(h)≡Prx∈D[f(x)≠h(x)]
5.1.2 离散值假设的置信区间
若要基于某个离散值假设
h
在样本
- 样本
S
包含
n 个样例,它们的抽取按照概率分布 D ,抽取过程是相互独立的,且不依赖于 h ; n≥30 - 假设
h
在这
n 个样例上犯了 r 个错误(errorS(h)=rn );
则,可断言:
- 没有其他信息的话, errorD(h) 最可能的值为 errorS(h) ;
- 有大约95%的可能性,真实错误率
errorD(h)
处于下面的区间内:
errorS(h)±1.96errorS(h)(1−errorS(h))n−−−−−−−−−−−−−−−−−−−−√
常数1.96是由95%这一置信度确定的(见《标准正态分布双侧上分位点表》)。
定义
zn
为计算
N%
置信区间是的常数。计算
errorD(h)
的
N%
置信区间的一般表达式为:
5.2 统计理论基础
5.2.1 二项分布
离散值假设
h
在
期望: E[X]=np
标准差: σX=np(1−p)−−−−−−−−√
对于足够大的 n ,二项分布很接近有同样均值和方差的正态分布。建议只在
5.2.2 估计偏差(Estimator Bias)
针对任意参数
p
的估计量
若估计偏差为0,称
Y
为
5.2.3 置信区间(Confidence Interval)
参数
p
的
如果随机变量
5.2.4 双侧与单侧边界
由一个有下界
L
和上界
5.3 推导置信区间的一般方法
一般包含一下步骤:
1. 确定基准总体中要估计的参数
2. 定义一个估计量,应选择最小方差的无偏估计量
3. 确定控制估计量的概率分布,包括其均值和方差
4. 通过寻找阈值(上界、下界)确定置信区间
5.4 学习算法比较
假定有
LA
和
LB
两个算法,要确定为了学习一特定的目标函数
f
,平均哪个算法更好。即从一基准实例分布
其中, L(S) 表示在给定训练数据的样本 S 时,学习算法
实际的学习算法比较中,只有一个有限的样本 D0 。用下述方法来估计两个算法的错误率差异:
1. 将可用数据 D0 分隔成 k 个相同大小的不相交子集
2. 令 i 从1到
Si←{D0−Ti}
hA←LA(Si),hB←LB(Si)
δi←errorTi(hA)−errorTi(hB)
3. 计算
δ¯
可以看作是对
ES⊂D0[errorD(LA(S))−errorD(LB(S))]
的估计,其近似的
N%
置信区间可表示为:
其中,
sδ¯
代表对
δ¯
所服从的概率分布的标准差的估计,