机器学习理论笔记（3）

最新推荐文章于 2023-03-17 09:51:40 发布

江河湖海times

最新推荐文章于 2023-03-17 09:51:40 发布

阅读量374

点赞数

分类专栏：机器学习理论知识

本文链接：https://blog.csdn.net/jiang_he_hu_hai/article/details/80953351

版权

机器学习理论知识专栏收录该内容

6 篇文章 0 订阅

订阅专栏

统计决策理论

squared error loss $L_2$

Let $X\in \mathbb R^p,Y\in \mathbb R$
Joint distribution，联合分布: $Pr(X,Y)$
我们希望找到一个函数 $f(X)$ ，对于给定的 $X$ 来预测 $Y$ 。首先我们需要一个loss function 损失函数 $L(Y,f(X))$ 来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:

L (Y, f (X)) = (Y - f (X)) 2 (3.1)

$L(Y,f(X))=(Y-f(X))^2 \tag{3.1}$
标准型：

E P E (f) = E (Y - f (X)) 2 = \int [y - f (x)] 2 P r (d x, d y) (3) (4)

$\begin{align} EPE(f) &=E(Y-f(X))^2 \\ &=\int [y-f(x)]^2Pr(dx,dy) \end{align}$
在

X X $X$ 条件下的条件预测误差：

\begin{matrix} (3.2) & E P E (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X) \end{matrix}

$EPE(f)=E_XE_{Y|X}([Y-f(X)]^2|X) \tag{3.2}$
这里期望表示积分，先固定

x x $x$ 对

y

$y$ 进行积分，然后再对

x x $x$ 进行积分。
我们逐点最小化

E P E

$EPE$ ，就可以得到：

f (x) = a r g m i n c E Y | X ([Y - c] 2 | X = x) (3.3)

$f(x)=argmin_cE_{Y|X}([Y-c]^2|X=x) \tag{3.3}$
它的解是：

f (x) = E (Y | X = x) (3.4)

$f(x)=E(Y|X=x) \tag{3.4}$
所以这里在条件

X=x X = x $X=x$ 的均值可以最好的预测

Y Y $Y$ 。最好的度量是平均平方误差。

可以认为期望就是一些取样点的平均，那么就有最近邻方法：

\begin{matrix} (3.5) & \hat{f} (x) = A v e (y_{i} | x_{i} \in N_{k} (x)) \end{matrix}

$\hat f(x)=Ave(y_i|x_i\in N_k(x)) \tag{3.5}$
现在再看线性回归拟合线性回归拟合，显然它是

f(x) f ( x ) $f(x)$ 的一个线性近似

f (x) \approx x T β (3.6)

$f(x)\approx x^T \beta \tag{3.6}$
把此式子代入

EPE E P E $EPE$ 就可以得到

β = [E (X X T)] - 1 E (X Y) (3.7)

$\beta=[E(XX^T)]^{-1}E(XY) \tag{3.7}$
最后我们是用数据的训练集来代入计算的。
我们可以得出结论：

最小二乘法是假设函数 $f(X)$ 近似于线性函数
$k$ -最近邻方法是假设函数 $f(x)$ 近似于一个局部常值函
现在我们假设：

$f (X) = \sum j = 1 p f j (X j) (3.8)$ $f(X)=\sum_{j=1}^pf_j(X_j) \tag{3.8}$
任意的 $f_j$ 的选择可以包含以上两种方法。

绝对损失函数 $L_1$

损失函数 $L_1=E|Y-f(X)|$ ，那么条件中值median

$f^(x) = m e d i a n (Y | X = x) (3.9)$ $\hat f(x)=median(Y|X=x) \tag{3.9}$

0-1损失函数 $L$

假设output $G$ 是一个分类变量categorical variable， $\hat G$ 是 $\mathcal G$ 中的一个估计值（一组可能的类），损失函数可以表示成一个 $K\times K$ 矩阵 $L$ ，这里 $K=card(\mathcal G)$ ， $\mathcal G$ 中类的个数。 $L$ 是一个对角线为0，其他位置非负的矩阵， $L(k,l)$ 表示 $\mathcal G_l$ 类观测分类到 $\mathcal G_k$ 类所需的代价。（也就是说这种分类错误会导致损失函数增加多少。）这里可以把 $G$ 看成前面的 $Y$ ， $\hat G(X)$ 可以看成前面的 $f(X)$ ， $g$ 相当于前面的 $c$ 。那么，0-1损失函数的预测误差期望是：

E P E = E [L (G, G^(X))] (3.10)

$EPE=E[L(G,\hat G(X))] \tag{3.10}$
写成添加联合分布的条件概率形式就是：

E P E = E X \sum k = 1 K L [G k, G^(X)] P r (G k | X) (3.11)

$EPE=E_X\sum^K_{k=1}L[\mathcal G_k,\hat G(X)]Pr(G_k|X) \tag{3.11}$
逐点极小化

EPE E P E $EPE$ 就是

G^(x) = a r g m i n g \in G \sum k = 1 K L (G k, g) P r (G k | X = x) (3.12)

$\hat G(x)=argmin_{g\in \mathcal G}\sum^K_{k=1}L(\mathcal G_k,g)Pr(\mathcal G_k|X=x) \tag{3.12}$
用0-1损失函数这个简化这个模型，也就是说

g g $g$ 等于某个

G_{k_{0}}

$\mathcal G_{k_0}$ ，那么

L(Gk0,g)=0 L ( G k 0 , g ) = 0 $L(\mathcal G_{k_0},g)=0$ ，对剩下的部分求和就得到下式：

G^(x) = a r g m i n g \in G [1 - P r (G k | X = x)] (3.13)

$\hat G(x)=argmin_{g\in \mathcal G} [1-Pr(\mathcal G_k|X=x)] \tag{3.13}$
简单写就是

G^(x) = G k if P r (G k | X = x) = max g \in G P r (g | X = x) (3.14)

$\hat G(x)=\mathcal G_k \text{ if } Pr(\mathcal G_k|X=x)=\max_{g\in\mathcal G}Pr(g|X=x) \tag{3.14}$
这就是贝叶斯分类器Bayes classifier。
这里写图片描述

江河湖海times

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习理论笔记（3）

统计决策理论Let X∈Rp,Y∈RX∈Rp,Y∈RX\in \mathbb R^p,Y\in \mathbb R Joint distribution，联合分布: Pr(X,Y)Pr(X,Y)Pr(X,Y) 我们希望找到一个函数f(X)f(X)f(X)，对于给定的XXX来预测YYY。首先我们需要一个loss function 损失函数L(Y,f(X))L(Y,f(X))L(Y,f(X))...
复制链接

扫一扫