西瓜书第3章学习笔记

1.一元线性回归

算法原理

图1

以发际线高度与计算机水平间的关系为例:

如图1所示,模型 f(x) = wx + b,拟合效果较好(若采用曲线形式拟合可能导致过拟合问题)。

该模型到各个点平行于Y轴的距离最短,称为“线性回归”。若到各个点的垂直距离最短则称为“正交回归”。

预测值y'与实际值y之间存在误差,称为“预测误差”,预测误差之和称为“均方误差”。可知线性回归即求均方误差最小的直线。

最小二乘估计

基于均方误差最小化进行模型求解的方法称为“最小二乘法

图2

图3

图3为图2中公式后半部分解释。

极大似然估计

极大似然估计用于估计概率分布的参数值。其直观想法为:使得观测样本出现概率最大的分布就是待求分布,即使得联合概率(似然函数)L(\theta)取到最大值的\theta'即为\theta的估计值。

因此有计算方法如下:对于离散型(或连续型)随机变量X,假设其概率质量函数为P(x;\theta)(概率密度函数为p(x;\theta)),其中\theta为待估计的参数值(可以有多个)。现有x1, x2, x3, ..., xn是来自X的n个独立同分布的样本,他们的联合概率为:

其中x1, x2, x3, ..., xn是已知量,\theta是未知量,因此以上概率是一个关于\theta的函数,称L(\theta)为样本的似然函数。

例如:观测样本x1, x2, x3, ...,xn,服从某个正态分布X~N(\mu\sigma ^{2}),那么\mu\sigma为待估计的参数值,如果用极大似然估计法估计\mu\sigma,则有:

概率密度函数:

似然函数:

然后可以求出令L(\mu\sigma ^{2})取得最大值的\mu\sigma

但实际计算中因为对数函数ln是单调递增函数,所以lnL(\mu\sigma ^{2})和原函数L(\mu\sigma ^{2})变化趋势相同,存在相同的最大值点,并且通过对数函数的性质可以化简L(\mu\sigma ^{2})中的连乘项,因此通常会用lnL(\mu\sigma ^{2})代替原函数求\mu\sigma,其运用如下:

用极大似然估计推导线性回归方程

已知线性回归有以下模型:y = wx + b + \epsilon

其中\epsilon为不受控制的随机误差,通常假设其服从均值为0的正态分布\epsilon~N(0,\sigma ^{2})(高斯提出,中心极限定理同样可证),所以有\epsilon的概率密度函数:

根据公式\epsilon可用y -(wx + b)等价替换,有:

注:此处p(y)由正态分布推导得出,将y视作随机变量,wx + b等效为均值

即上式可看作y~N(wx + b,\sigma ^{2}),下面用极大似然估计来估计w和b的值,似然函数为

因为m,\sigma均为常数,所以最大化ln L(w,b)等价于最小化\sum_{m}^{i = 1}\left ( y_{i} - wx_{i} - b \right )^{2},即

与最小二乘法得到的公式相同,说明极大似然估计法在这里等价于最小二乘估计。

求解w和b

求解w和b其本质上是一个多元函数求最值的问题,更具体来说是凸函数求最值的问题。

因此我们求解思路应为:先证明E\left (w,b \right ) = \sum_{m}^{i = 1}\left ( y_{i} - wx_{i} - b \right )^{2}是关于w和b的凸函数,然后根据凸函数求最值的思路求解出w和b。

定理:设D\subset \mathbb{R}^{n}是非空开凸集(注1),f:D\subset \mathbb{R}^{n}\rightarrow \mathbb{R},且f(x)在D上二阶连续可微,如果f(x)的Hessian(海塞)矩阵(注4)在D上是半正定的,则f(x)是D上的凸函数。(类比一元函数判断凹凸性)

因此,只需证明E\left ( w,b \right ) = \sum_{i=1}^{m}(y_{i} - wx_{i} - b)^{2}的Hessin(海塞)矩阵

\bigtriangledown ^{2}E(w,b) = \begin{bmatrix} \frac{\partial^2 E(w,b)}{\partial w^2} &\frac{\partial^2 E(w,b)}{\partial w \partial b} \\ \frac{\partial^2 E(w,b)}{\partial b \partial w}& \frac{\partial^2 E(w,b)}{\partial b^2} \end{bmatrix}

是半正定的,那么E(w,b)就是关于w和b的凸函数。

公式3.5

公式3.6

 在公式3.5的基础上分别求对w的二阶偏导和对b的偏导得:

在公式3.6的基础上分别求对w的二阶偏导和对b的偏导得:

 

 有\bigtriangledown ^{2}E(w,b) = \begin{bmatrix} \frac{\partial^2 E(w,b)}{\partial w^2} &\frac{\partial^2 E(w,b)}{\partial w \partial b} \\ \frac{\partial^2 E(w,b)}{\partial b \partial w}& \frac{\partial^2 E(w,b)}{\partial b^2} \end{bmatrix} = \begin{bmatrix} 2\sum_{i=1}^{m}x_{i}^{2} & 2\sum_{i=1}^{m}x\\ 2\sum_{i=1}^{m}x& 2m \end{bmatrix}

根据半正定矩阵的判定定理之一:若实对称矩阵的所有顺序主子式均为非负,则该矩阵为半正定矩阵。

由于\sum_{i = 1}^{m}x_{i}\bar{x} = \bar{x}\cdot m\cdot \frac{1}{m}\sum_{i = 1}^{m}x_{i} = m\bar{x}^{2} = \sum_{i = 1}^{m}\bar{x}^{2}

所以有

易知4m\sum_{i=1}^{m}(x_{i} - \bar{x})^{2}\geqslant 0,Hessin(海塞矩阵) \bigtriangledown ^{2}E(w,b)的所有顺序主子式均非负,该矩阵为半正定矩阵,进而E(w,b)是关于w和b的凸函数。

由凸充分性定理:若f:\mathbb{R}^{n}\rightarrow \mathbb{R}是凸函数,且f(x)一阶连续可微,则x'是全局解的充分必要条件是\bigtriangledown f(x') = 0

所以,\bigtriangledown E(w,b) = 0的点即为最小值点,即

\bigtriangledown E(w,b) = \begin{bmatrix} \frac{\partial E(w,b)}{\partial w}\\ \frac{\partial E(w,b)}{\partial b} \end{bmatrix} = \begin{bmatrix} 0\\ 0 \end{bmatrix}

 由此可得

公式3.8

 对公式3.8化简可得b = \frac{1}{m}\sum_{i=1}^{m}y_{i} - w\cdot \frac{1}{m}\sum_{i=1}^{m}x_{i} = \bar{y}- w\bar{x}

 把b = \bar{y}- w\bar{x}代入得w \sum_{i=1}^{m}x_{i}^{2} = \sum_{i=1}^{m}y_{i}x_{i} - \sum_{i=1}^{m}(\bar{y}-w\bar{x})x_{i}

 其中

代入可得

公式3.7

BTW 

1.模型:根据具体问题,确定假设空间

2.策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)

3.算法:求解损失函数,确定最优模型

补充

注1:凸集

设集合D\subset \mathbb{R}^{n},如果对任意的x,y\in D与任意的\alpha \in \left [ 0,1 \right ],有

\alpha x+(1-\alpha )y\in D

则称集合D是凸集。凸集的几何意义为:若两个点属于此集合,则这两点连线上的任意一点均属于此集合(应补充图)。常见的凸集有空集\O,n维欧氏空间\mathbb{R}^{n}

注2:凸函数

D是非空凸集,f是定义在D上的函数,如果对任意的x_{1},x_{2}\in D\alpha \in(0,1),均有

f(\alpha x_{1}+(1-\alpha)x_{2}) \leqslant \alpha f(x_{1}) + (1 - \alpha)f(x_{2})

则称f为D上的凸函数(应补充图

注3:梯度(多元函数的一阶导数)

设n元函数f(x)对自变量x=(x_{1},x_{2},...,x_{n})'的各分量x_{i}的偏导数\frac{\partial f(x)}{\partial x_{i}}(i=1,...,n)都存在,则称函数f(x)在x处一阶可导,并称向量

\bigtriangledown f(x)=\begin{bmatrix} \frac{\partial f(x)}{\partial x_{1}}\\ \frac{\partial f(x)}{\partial x_{2}}\\ ...\\ \frac{\partial f(x)}{\partial x_{n}} \end{bmatrix}

为函数f(x)在x处的一阶导数或梯度。

注4:Hessian(海塞)矩阵(多元函数的二阶导数)

设n元函数f(x)对自变量x=(x_{1},x_{2},...,x_{n})'的各分量x_{i}的二阶偏导数\frac{\partial^2 f(x)}{\partial x_{i} \partial x_{j}} (i = 1,2,...,n; j=1,2,...,n)都存在,则称函数f(x)在x处二阶可导,并称矩阵

为函数f(x)在x处的二阶导数或Hessian(海塞)矩阵。

2.二分类线性判别分析

算法原理

从几何的角度,让全体训练样本经过投影后:

      ·异类样本的中心尽可能远。

      ·同类样本的方差尽可能小。

损失函数推导

经过投影后,异类样本的中心尽可能远(非严格投影)

 经过投影后,同类样本的方差尽可能小(非严格方差)

 

 

拉格朗日乘子法 

对于金汉等式约束的优化问题,其中自变量x\in\mathbb{R}^{n}f(x)h_{i}(x)均有连续的一阶连续偏导数。

列出其拉格朗日函数:

L(x,\lambda)=f(x)+\sum^{n}_{i=1}\lambda _{i}h_{i}(x)

其中\lambda=(\lambda_{1},\lambda_{2},...,\lambda_{n})^{T}为拉格朗日乘子。然后对拉格朗日函数关于 x求偏导,并令导数等于0再搭配约束条件h_{i}(x)=0解出x,求解出的所有x即为上述优化问题的所有可能极值点

ps:解释为什么是min

求解w 

由拉格朗日乘子法可得拉格朗日函数为 :

l(w,\lambda)=-w^{T}S_{b}w+\lambda(w^{T}S_{w}w-1)

对 w求偏导可得:

由于S_{b}=S^{T}_{b},S_{w}=S^{T}_{w} 所以有:

令上式等于0即可得:

 

 若令(\mu _{0}-\mu_{1})^{T}w=\gamma,则:

由于最终要求解w的不关心其大小,仅关心其方向,所以\frac{\gamma}{\lambda}这个常数项可以任意取值,如西瓜书中所说“不妨令其S_{b}w=\lambda(\mu_{0}-\mu_{1})”等价于令\gamma=\lambda,进而使得\frac{\gamma}{\lambda}=1,此时求解出的w即为公式(3.39)(此处

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值