机器学习之作业1

最新推荐文章于 2023-07-11 20:55:06 发布

才大难为用

最新推荐文章于 2023-07-11 20:55:06 发布

阅读量245

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/HeroIsUseless/article/details/108906134

版权

机器学习专栏收录该内容

33 篇文章 61 订阅

订阅专栏

作业 1: 经验风险最小化 vs. 结构风险最小化

[1] 解释：期望风险最小，经验风险最小化和结构风险最小化；

经验风险：对所有训练样本都求一次损失函数，再累加求平均。即，模型f(x)对训练样本中所有样本的预测能力,是局部概念。
$R_{emp}(f)=\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))$

期望风险：对所有样本（包含未知样本和已知的训练样本）的预测能力，是全局概念。
$R_{exp}(f)=E_p[L(Y,f(X))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy$

结构风险：对经验风险和期望风险的折中，在经验风险函数后面加一个正则化项（惩罚项），是一个大于0的系数 $\lambda$ 。J(f)表示的是模型的复杂度。
$R_{srm}(f)=\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f)$

[2] 当模型是条件概率分布（比如 $y｜x ～ N(w^Tx, 1)$ ），当损失函数是对数损失函数时，

(2.1) 经验风险最小化等价于极大似然估计;

经验风险损失函数为
$R_{emp}(f)=\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))\\ =-\frac{1}{N}\sum^N_{i=1}\log P(y_i|x_i)$
极大似然估计为
$P(y)=\prod_{i=1}^nP(y_i|x_i)\\ \log P(y)=\log\prod_{i=1}^nP(y_i|x_i)=\sum^N_{i=1}\log P(y_i|x_i)\\ -\frac{1}{N}\log P(y)=-\frac{1}{N}\sum^N_{i=1}\log P(y_i|x_i) =R_{emp}(f)$
因此经验风险最小化等价于极大似然估计。

(2.2) 结构风险最小化等价于最大后验概率估计

结构风险误差函数为
$R_{srm}(f)=\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f)$
最大后验概率估计为
$p(w|D)\approx p(D|w)p(w)\\ max_w \frac{1}{n}\log p(w|D)\approx max_w \frac{1}{n}p(D|w)p(w)\\ = max_w\frac{1}{n}\log \prod^n_{i=1}p(y_i|x_i)+\log p(w)\\ =min_w\frac{1}{n}\sum^n_{i=1}\log p(y_i|x_i)-\log p(w)$

得证。

作业 2：关于曲线拟合

[1] 对 $y=\sin(2\pi x)$ 进行在 $x = 0.5$ 进行泰勒展开，展开至 $O(x^3)$ 即可；

$\sin(2\pi x)=-2\pi(x-0.5)+\frac{4\pi^3}{3}(x-0.5)^3+O(x^3)\\ \simeq 41.34x^3-62.01x^2+24.72x-2.03$

[2] 在 M=0，1，3，9 的情况下，求解出系数。在 M=3 的情况下，比较第[1]小题和第[2]小题求出来的系数。

$L(w)=\sum^N_{i=1}(f_M(x_i,w)-y_i)^2\\ =(\textbf X\textbf w-\textbf y)^T(\textbf X\textbf w-\textbf y)\\ =\textbf{w}^T\textbf{X}^T\textbf{Xw}-2\textbf{w}^T\textbf{X}^T\textbf{t}+\textbf{t}^T\textbf{t}$

$\frac{\vartheta L}{\vartheta \textbf{w}}=\frac{2}{n}\textbf{X}^T\textbf{X}\textbf{w}-\frac{2}{n}\textbf{X}^T\textbf{t}=0\\ \textbf{w}=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{t}$

其中 $\textbf X$ 是范德蒙矩阵，当M=0，1，3，9时，用python计算：

from numpy import *

x = [0.0, 0.1111, 0.2222, 0.3333, 0.4444, 
		0.5556, 0.6667, 0.7778, 0.8999, 1.0]
y = [0.0008, 0.6419, 0.9849, 0.8655, 
		0.3423, -0.3426, -0.8655, -0.9841, -0.6411, -0.0002]

def calc_w(n):
    # 先求范德蒙矩阵
    X = ones((10,1))
    m_t = mat(x).T
    m_diagonal = diag(x)
    while n>0:
        X=hstack((X,m_t))
        m_t = m_diagonal*m_t
        n-=1
    t = mat(y).T
    return (X.T*X).I*X.T*t
    
print('M=0:')
#print(calc_w(0))
print('M=1:')
print(calc_w(1))
print('M=3:')
print(calc_w(3))
print('M=9:')
print(calc_w(9))

结果为

M=0:
不可逆，手算出[[0.00018]]
M=1:
[[ 0.67342714]
 [-1.34351854]]
M=3:
[[ -0.05776011]
 [ 10.72400336]
 [-31.83268864]
 [ 21.20829113]]
M=9:
[[ 3.56381361e-04]
 [ 6.34779809e+00]
 [-2.77218971e+00]
 [-5.85761912e+00]
 [-2.17733512e+02]
 [ 8.21288106e+02]
 [-1.45968949e+03]
 [ 1.57393264e+03]
 [-9.71232120e+02]
 [ 2.55715737e+02]]

可以看到，在 $M = 3$ 的情况下，与泰勒级数相比，大约是2倍的关系，实际上的曲线也差不多。
在这里插入图片描述

[3] 证明《PRML》第一章第一个题目。

当误差函数取最小值时，根据题目[2]，必然有
$\textbf{w}=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{t}\\ \textbf{X}^T\textbf{X}\textbf{w}=\textbf{X}^T\textbf{t}\\ (\textbf{X}^T\textbf{X}\textbf{w})^T=(\textbf{X}^T\textbf{t})^T\\ \textbf w^T\textbf X^T\textbf X=\textbf t^T\textbf X\\ \textbf w(\textbf X^T\textbf X)_{i}=\textbf t^T\textbf X_{i}$

$T_i=\sum^N_{n=1}(x_n)^it_n\\ =\sum^N_{n=1}\textbf X_{n,i+1}t_n=\textbf t^T\textbf X_{i}$
其中 $\textbf X_{i}$ 表示矩阵 $\textbf X$ 的第 $i$ 列。 $\textbf X_{n,i}$ 表示范德蒙矩阵的第 $n$ 行，第 $i$ 列的元素。

$A_{ij}=\sum^N_{n=1}(x_n)^{i+j}=(\textbf X^T\textbf X)_{i}$
其中， $(\textbf X^T\textbf X)_{i}$ 表示矩阵 $\textbf X^T\textbf X$ 的第 $i$ 列。
根据原式
$\sum^N_{j=0}A_{ij}w_j=T_i\\ \sum^M_{j=0}(\sum^N_{n=1}(x_n)^{i+j}w_j)=\sum^N_{n=1}(x_n)^it_n\\ \sum^M_{j=0}((\textbf X^T\textbf X)_{i}w_j)=\sum^N_{n=1}\textbf X_{n,i}t_n\\ \textbf w(\textbf X^T\textbf X)_{i}=\textbf t^T\textbf X_{i}$

从而得证。

作业 3：最小二乘与正则化问题

当正则化项是 $\lambda\sum^d_{j=2}\theta^2_j$ 时，必然有
$\widehat{\theta}=(\textbf{A}^T\textbf{A}+\lambda\textbf{F})^{-1}\textbf{A}^T\textbf{y}$

其中 $F$ 为 $d\times d$ 的矩阵， $F_{i,i}=1,(1<i\le d)$ ，其他元素都是 $0$
$(\textbf{A}^T\textbf{A}+\lambda\textbf{F})\widehat{\theta}=\textbf{A}^T\textbf{y}\\ (\textbf{A}^T_1\textbf{A}+\lambda\textbf{F})\widehat{\theta}=\textbf{A}^T_1\textbf{y}$

其中 $A^T_1$ 表示 $A^T$ 的第一行，为 $I^T$ ， $I$ 为 $n\times 1$ 的全1列向量，则变为
$(I^T\textbf{A}+\lambda\textbf{F})\widehat{\theta}=I^T\textbf{y}\\ [n,0,0,...,0]^T_{1\times d}\widehat{\theta}=I^T\textbf{y}\\ n\widehat{\theta}_1=I^T\textbf{y}\\ \widehat{\theta}_1=\frac{I^T\textbf{y}}{n}$

当正则化项是 $\lambda\sum^d_{j=1}\theta^2_j$ 时，必然有
$\widetilde{\theta}=(\textbf{A}^T\textbf{A}+\lambda\textbf{E})^{-1}\textbf{A}^T\textbf{y}$

其中 $E$ 为 $d\times d$ 的单位矩阵
$(\textbf{A}^T\textbf{A}+\lambda\textbf{E})\widetilde{\theta}=\textbf{A}^T\textbf{y}\\ (\textbf{A}^T_1\textbf{A}+\lambda\textbf{E})\widetilde{\theta}=\textbf{A}^T_1\textbf{y}\\ (I^T\textbf{A}+\lambda\textbf{E})\widetilde{\theta}=I^T\textbf{y}\\ [n+\lambda,0,0,...,0]^T_{1\times d}\widetilde{\theta}=I^T\textbf{y}\\ (n+\lambda)\widetilde{\theta}_1=I^T\textbf{y}\\ \widetilde{\theta}_1=\frac{I^T\textbf{y}}{n+\lambda}$

因为有
$(\textbf{A}^T_1\textbf{A}+\lambda\textbf{F})\widehat{\theta}= (\textbf{A}^T_1\textbf{A}+\lambda\textbf{E})\widetilde{\theta}=\textbf{A}^T_1\textbf{y}=I^T\textbf{y}$

则有
$(\textbf{A}^T\textbf{A}+\lambda\textbf{F})\widehat{\theta}= (\textbf{A}^T\textbf{A}+\lambda\textbf{E})\widetilde{\theta}=\textbf{A}^T\textbf{y}\\ =\left[\begin{array}{l} I^T\textbf{y},\\ a_{2,1}\times \theta_2+(a_{2,2}+1)\times \theta_3+...+a_{2,d}\times\theta_d,\\ ...\\ a_{d,1}\times \theta_2+a_{d,2}\times \theta_3+...+(a_{d,d}+1)\times\theta_d] \end{array}\right]$