西瓜书第3章学习笔记

LazyPunk330

已于 2023-10-11 23:03:50 修改

阅读量58

点赞数

文章标签：学习笔记

于 2023-09-18 22:33:49 首次发布

本文链接：https://blog.csdn.net/LazyPunk/article/details/132963191

版权

1.一元线性回归

算法原理

以发际线高度与计算机水平间的关系为例：

如图1所示，模型 f(x) = wx + b，拟合效果较好（若采用曲线形式拟合可能导致过拟合问题）。

该模型到各个点平行于Y轴的距离最短，称为“线性回归”。若到各个点的垂直距离最短则称为“正交回归”。

预测值y'与实际值y之间存在误差，称为“预测误差”，预测误差之和称为“均方误差”。可知线性回归即求均方误差最小的直线。

最小二乘估计

基于均方误差最小化进行模型求解的方法称为“最小二乘法”

图3为图2中公式后半部分解释。

极大似然估计

极大似然估计用于估计概率分布的参数值。其直观想法为：使得观测样本出现概率最大的分布就是待求分布，即使得联合概率（似然函数）L（ $\theta$ ）取到最大值的 $\theta$ '即为 $\theta$ 的估计值。

因此有计算方法如下：对于离散型（或连续型）随机变量X，假设其概率质量函数为P（x； $\theta$ ）（概率密度函数为p（x； $\theta$ ）），其中 $\theta$ 为待估计的参数值（可以有多个）。现有x1, x2, x3, ..., xn是来自X的n个独立同分布的样本，他们的联合概率为：

其中x1, x2, x3, ..., xn是已知量， $\theta$ 是未知量，因此以上概率是一个关于 $\theta$ 的函数，称L（ $\theta$ ）为样本的似然函数。

例如：观测样本x1, x2, x3, ...,xn，服从某个正态分布X~N（ $\mu$ ， $\sigma ^{2}$ ），那么 $\mu$ ， $\sigma$ 为待估计的参数值，如果用极大似然估计法估计 $\mu$ ， $\sigma$ ，则有：

概率密度函数：

似然函数：

然后可以求出令L（ $\mu$ ， $\sigma ^{2}$ ）取得最大值的 $\mu$ ， $\sigma$

但实际计算中因为对数函数ln是单调递增函数，所以lnL（ $\mu$ ， $\sigma ^{2}$ ）和原函数L（ $\mu$ ， $\sigma ^{2}$ ）变化趋势相同，存在相同的最大值点，并且通过对数函数的性质可以化简L（ $\mu$ ， $\sigma ^{2}$ ）中的连乘项，因此通常会用lnL（ $\mu$ ， $\sigma ^{2}$ ）代替原函数求 $\mu$ ， $\sigma$ ，其运用如下：

用极大似然估计推导线性回归方程

已知线性回归有以下模型：y = wx + b + $\epsilon$

其中 $\epsilon$ 为不受控制的随机误差，通常假设其服从均值为0的正态分布 $\epsilon$ ~N（0， $\sigma ^{2}$ ）（高斯提出，中心极限定理同样可证），所以有 $\epsilon$ 的概率密度函数：

根据公式 $\epsilon$ 可用y -（wx + b）等价替换，有：

注：此处p（y）由正态分布推导得出，将y视作随机变量，wx + b等效为均值

即上式可看作y~N（wx + b， $\sigma ^{2}$ ），下面用极大似然估计来估计w和b的值，似然函数为

因为m， $\sigma$ 均为常数，所以最大化ln L（w，b）等价于最小化 $\sum_{m}^{i = 1}\left ( y_{i} - wx_{i} - b \right )^{2}$ ，即

与最小二乘法得到的公式相同，说明极大似然估计法在这里等价于最小二乘估计。

求解w和b

求解w和b其本质上是一个多元函数求最值的问题，更具体来说是凸函数求最值的问题。

因此我们求解思路应为：先证明 $E\left (w,b \right ) = \sum_{m}^{i = 1}\left ( y_{i} - wx_{i} - b \right )^{2}$ 是关于w和b的凸函数，然后根据凸函数求最值的思路求解出w和b。

定理：设 $D\subset \mathbb{R}^{n}$ 是非空开凸集（注1）， $f:D\subset \mathbb{R}^{n}\rightarrow \mathbb{R}$ ，且f（x）在 $D$ 上二阶连续可微，如果f（x）的Hessian（海塞）矩阵（注4）在 $D$ 上是半正定的，则f(x)是 $D$ 上的凸函数。（类比一元函数判断凹凸性）

因此，只需证明 $E\left ( w,b \right ) = \sum_{i=1}^{m}(y_{i} - wx_{i} - b)^{2}$ 的Hessin（海塞）矩阵

$\bigtriangledown ^{2}E(w,b) = \begin{bmatrix} \frac{\partial^2 E(w,b)}{\partial w^2} &\frac{\partial^2 E(w,b)}{\partial w \partial b} \\ \frac{\partial^2 E(w,b)}{\partial b \partial w}& \frac{\partial^2 E(w,b)}{\partial b^2} \end{bmatrix}$

是半正定的，那么 $E(w,b)$ 就是关于w和b的凸函数。

在公式3.5的基础上分别求对w的二阶偏导和对b的偏导得：

在公式3.6的基础上分别求对w的二阶偏导和对b的偏导得：

有 $\bigtriangledown ^{2}E(w,b) = \begin{bmatrix} \frac{\partial^2 E(w,b)}{\partial w^2} &\frac{\partial^2 E(w,b)}{\partial w \partial b} \\ \frac{\partial^2 E(w,b)}{\partial b \partial w}& \frac{\partial^2 E(w,b)}{\partial b^2} \end{bmatrix}$ $= \begin{bmatrix} 2\sum_{i=1}^{m}x_{i}^{2} & 2\sum_{i=1}^{m}x\\ 2\sum_{i=1}^{m}x& 2m \end{bmatrix}$

根据半正定矩阵的判定定理之一：若实对称矩阵的所有顺序主子式均为非负，则该矩阵为半正定矩阵。

由于 $\sum_{i = 1}^{m}x_{i}\bar{x} = \bar{x}\cdot m\cdot \frac{1}{m}\sum_{i = 1}^{m}x_{i} = m\bar{x}^{2} = \sum_{i = 1}^{m}\bar{x}^{2}$

所以有

易知 $4m\sum_{i=1}^{m}(x_{i} - \bar{x})^{2}\geqslant 0$ ，Hessin（海塞矩阵） $\bigtriangledown ^{2}E(w,b)$ 的所有顺序主子式均非负，该矩阵为半正定矩阵，进而 $E(w,b)$ 是关于w和b的凸函数。

由凸充分性定理：若 $f:\mathbb{R}^{n}\rightarrow \mathbb{R}$ 是凸函数，且f（x）一阶连续可微，则x'是全局解的充分必要条件是 $\bigtriangledown f(x') = 0$

所以， $\bigtriangledown E(w,b) = 0$ 的点即为最小值点，即

$\bigtriangledown E(w,b) = \begin{bmatrix} \frac{\partial E(w,b)}{\partial w}\\ \frac{\partial E(w,b)}{\partial b} \end{bmatrix} = \begin{bmatrix} 0\\ 0 \end{bmatrix}$

由此可得

对公式3.8化简可得 $b = \frac{1}{m}\sum_{i=1}^{m}y_{i} - w\cdot \frac{1}{m}\sum_{i=1}^{m}x_{i} = \bar{y}- w\bar{x}$

把 $b = \bar{y}- w\bar{x}$ 代入得 $w \sum_{i=1}^{m}x_{i}^{2} = \sum_{i=1}^{m}y_{i}x_{i} - \sum_{i=1}^{m}(\bar{y}-w\bar{x})x_{i}$

其中

代入可得

BTW

1.模型：根据具体问题，确定假设空间

2.策略：根据评价标准，确定选取最优模型的策略（通常会产出一个“损失函数”）

3.算法：求解损失函数，确定最优模型

补充

注1：凸集

设集合 $D\subset \mathbb{R}^{n}$ ，如果对任意的 $x,y\in D$ 与任意的 $\alpha \in \left [ 0,1 \right ]$ ，有

$\alpha x+(1-\alpha )y\in D$

则称集合 $D$ 是凸集。凸集的几何意义为：若两个点属于此集合，则这两点连线上的任意一点均属于此集合（应补充图）。常见的凸集有空集 $\O$ ，n维欧氏空间 $\mathbb{R}^{n}$

注2：凸函数

设 $D$ 是非空凸集，f是定义在 $D$ 上的函数，如果对任意的 $x_{1},x_{2}\in D$ ， $\alpha \in(0,1)$ ，均有

$f(\alpha x_{1}+(1-\alpha)x_{2}) \leqslant \alpha f(x_{1}) + (1 - \alpha)f(x_{2})$

则称f为 $D$ 上的凸函数（应补充图）

注3：梯度（多元函数的一阶导数）

设n元函数f（x）对自变量 $x=(x_{1},x_{2},...,x_{n})'$ 的各分量 $x_{i}$ 的偏导数 $\frac{\partial f(x)}{\partial x_{i}}(i=1,...,n)$ 都存在，则称函数f（x）在x处一阶可导，并称向量

$\bigtriangledown f(x)=\begin{bmatrix} \frac{\partial f(x)}{\partial x_{1}}\\ \frac{\partial f(x)}{\partial x_{2}}\\ ...\\ \frac{\partial f(x)}{\partial x_{n}} \end{bmatrix}$

为函数f（x）在x处的一阶导数或梯度。

注4：Hessian（海塞）矩阵（多元函数的二阶导数）

设n元函数f（x）对自变量 $x=(x_{1},x_{2},...,x_{n})'$ 的各分量 $x_{i}$ 的二阶偏导数 $\frac{\partial^2 f(x)}{\partial x_{i} \partial x_{j}} (i = 1,2,...,n; j=1,2,...,n)$ 都存在，则称函数f（x）在x处二阶可导，并称矩阵

为函数f（x）在x处的二阶导数或Hessian（海塞）矩阵。

2.二分类线性判别分析

算法原理

从几何的角度，让全体训练样本经过投影后：

·异类样本的中心尽可能远。

·同类样本的方差尽可能小。

损失函数推导

经过投影后，异类样本的中心尽可能远（非严格投影）

经过投影后，同类样本的方差尽可能小（非严格方差）

拉格朗日乘子法

对于金汉等式约束的优化问题，其中自变量 $x\in\mathbb{R}^{n}$ ， $f(x)$ 和 $h_{i}(x)$ 均有连续的一阶连续偏导数。

列出其拉格朗日函数：

$L(x,\lambda)=f(x)+\sum^{n}_{i=1}\lambda _{i}h_{i}(x)$

其中 $\lambda=(\lambda_{1},\lambda_{2},...,\lambda_{n})^{T}$ 为拉格朗日乘子。然后对拉格朗日函数关于 $x$ 求偏导，并令导数等于0再搭配约束条件 $h_{i}(x)=0$ 解出 $x$ ，求解出的所有 $x$ 即为上述优化问题的所有可能极值点

ps：解释为什么是 $min$

求解 $w$

由拉格朗日乘子法可得拉格朗日函数为：

$l(w,\lambda)=-w^{T}S_{b}w+\lambda(w^{T}S_{w}w-1)$

对 $w$ 求偏导可得：

由于 $S_{b}=S^{T}_{b},S_{w}=S^{T}_{w}$ 所以有：

令上式等于0即可得：

若令 $(\mu _{0}-\mu_{1})^{T}w=\gamma$ ，则：

由于最终要求解 $w$ 的不关心其大小，仅关心其方向，所以 $\frac{\gamma}{\lambda}$ 这个常数项可以任意取值，如西瓜书中所说“不妨令其 $S_{b}w=\lambda(\mu_{0}-\mu_{1})$ ”等价于令 $\gamma=\lambda$ ，进而使得 $\frac{\gamma}{\lambda}=1$ ，此时求解出的 $w$ 即为公式（3.39）（此处

LazyPunk330

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第3章学习笔记

其直观想法为：使得观测样本出现概率最大的分布就是待求分布，即使得联合概率（似然函数）L（根据半正定矩阵的判定定理之一：若实对称矩阵的所有顺序主子式均为非负，则该矩阵为半正定矩阵。）变化趋势相同，存在相同的最大值点，并且通过对数函数的性质可以化简L（上二阶连续可微，如果f（x）的Hessian（海塞）矩阵（注4）在。是凸函数，且f（x）一阶连续可微，则x'是全局解的充分必要条件是。是关于w和b的凸函数，然后根据凸函数求最值的思路求解出w和b。为函数f（x）在x处的二阶导数或Hessian（海塞）矩阵。
复制链接

扫一扫