统计决策理论
squared error loss L2 L 2
Let
X∈Rp,Y∈R
X
∈
R
p
,
Y
∈
R
Joint distribution,联合分布:
Pr(X,Y)
P
r
(
X
,
Y
)
我们希望找到一个函数
f(X)
f
(
X
)
,对于给定的
X
X
来预测。首先我们需要一个loss function 损失函数
L(Y,f(X))
L
(
Y
,
f
(
X
)
)
来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:
标准型:
在 X X 条件下的条件预测误差:
这里期望表示积分,先固定 x x 对进行积分,然后再对 x x 进行积分。
我们逐点最小化,就可以得到:
它的解是:
所以这里在条件 X=x X = x 的均值可以最好的预测 Y Y 。最好的度量是平均平方误差。
可以认为期望就是一些取样点的平均,那么就有最近邻方法:
现在再看线性回归拟合 线性回归拟合,显然它是 f(x) f ( x ) 的一个线性近似
把此式子代入 EPE E P E 就可以得到
最后我们是用数据的训练集来代入计算的。
我们可以得出结论:
- 最小二乘法是假设函数 f(X) f ( X ) 近似于线性函数
k k -最近邻方法是假设函数近似于一个局部常值函
现在我们假设:
f(X)=∑j=1pfj(Xj)(3.8) (3.8) f ( X ) = ∑ j = 1 p f j ( X j )
任意的 fj f j 的选择可以包含以上两种方法。绝对损失函数 L1 L 1
损失函数 L1=E|Y−f(X)| L 1 = E | Y − f ( X ) | ,那么条件中值median
f^(x)=median(Y|X=x)(3.9) (3.9) f ^ ( x ) = m e d i a n ( Y | X = x )
0-1损失函数 L L
假设output 是一个分类变量categorical variable,
G^
G
^
是
G
G
中的一个估计值(一组可能的类),损失函数可以表示成一个
K×K
K
×
K
矩阵
L
L
,这里,
G
G
中类的个数。
L
L
是一个对角线为0,其他位置非负的矩阵,表示
Gl
G
l
类观测分类到
Gk
G
k
类所需的代价。(也就是说这种分类错误会导致损失函数增加多少。)这里可以把
G
G
看成前面的,
G^(X)
G
^
(
X
)
可以看成前面的
f(X)
f
(
X
)
,
g
g
相当于前面的。那么,0-1损失函数的预测误差期望是:
写成添加联合分布的条件概率形式就是:
逐点极小化 EPE E P E 就是
用0-1损失函数这个简化这个模型,也就是说 g g 等于某个,那么 L(Gk0,g)=0 L ( G k 0 , g ) = 0 ,对剩下的部分求和就得到下式:
简单写就是
这就是贝叶斯分类器Bayes classifier。
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/36f2c4c8f22177be4f0b36d9c59ca065.png)