Task02: 详读西瓜书+南瓜书第3章

一、一元线性回归

1. 机器学习三要素

1). 模型:根据具体问题,确定假设空间

2). 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)

3). 算法:求解损失函数,确定最优模型

2. 算法原理

1) 将收集到的数据,根据经验和数据形态,建直线模型,f(x)=wx+b,也可以写成y=wx+b

2) 求这样一条直线,确定w,b

        均方误差亦称平方损失(square loss),是回归任务中最常用的性能度量,对应了常用的欧氏距离。基于均方误差最小化进行模型求解的方法称为最小二乘法。求解w和b使

\small E_{(w,b)}= \sum _{i=1}^{m}(y_{i}-wx_{i}-b)^{2}

最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation)。\tiny E_{(w,b)}分别对w,b求导,得到

\small \frac{\partial E_{(w,b)}}{\partial w}= 2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i}),

\small \frac{\partial E_{(w,b)}}{\partial b}= 2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i})).

令以上两式为零,可得到w和b最优解的闭式(closed-form)解

\small w=\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}},

\small b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i}).

其中

\small \bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}

为x的均值。

2.  极大似然估计概率分布的参数值

1)方法

        对于离散型(连续型)随机变量X,假设其概率质量函数为\tiny P(x;\theta )(概率密度函数\tiny P(x;\theta )),其中\small \theta为待估计的参数值。现有\small x_{1},x_{2},x_{3},\cdots ,x_{n}是来自X的n个同分布的样本,它们的联合概率为

\small L(\theta )=\prod_{i=1}^{n}P(x_{i};\theta )

        其中\small x_{1},x_{2},x_{3},\cdots ,x_{n}是已知量,\small \theta是未知量,\tiny L(\theta )为样本的似然函数。极大似然估计的直观想法是使得观测样本出现概率最大的分布就是待求分布,也即使得联合概率(似然函数)\tiny L(\theta )取到最大值的\small \theta ^{*}即为\small \theta的估计值。

2)示例步骤

极大似然估计其观测样本服从某个正态分布\tiny X\sim N(\mu ,\delta ^{^{2}})\tiny \mu ,\delta

第一步: 写出随机变量X的概率密度函数

\small p(x;\mu ,\delta ^{2})=\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x-\mu )^{2}}{2\delta ^{2}})

第二步: 写出似然函数

\small L(\mu ,\delta ^{2})= \prod_{i=1}^{n}p(x_{i};\mu ,\delta ^{2})=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x_{i}-\mu )^{2}}{2\delta ^{2}})

第三步: 求出使得\tiny L(\mu ,\delta^{2} )取得最大值的\tiny \mu ,\delta

第四步: 用\tiny InL(\mu ,\delta ^{2}) 化简\tiny L(\mu ,\delta^{2} )中的连乘项

\small InL(\mu ,\delta ^{2})= In[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x_{i}-\mu )^{2}}{2\delta ^{2}})]= \sum_{i=1}^{n}In\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x_{i}-\mu )^{2}}{2\delta ^{2}})

3) 推导一元线性回归

         对于线性回归来说,也可以假设其为以下模型

\small y=wx+b+\varepsilon

        其中\small \varepsilon为不受控制的随机误差,通常假设其服从均值为0的正态分布\tiny \varepsilon \sim N(0,\delta^{^{2}}),所以\small \varepsilon的概率密度函数为

\small p(\varepsilon )=\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{\varepsilon ^{2}}{2\delta ^{2}})

若将\small \varepsilon\small y-(wx+b)等价替换可得:

\small p(y)= \frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(y-(wx+b))^{^{2}}}{2\delta ^{^{2}}})

上式显然可以看作

\small y\sim N(wx+b,\delta ^{2})

用极大似然估计w和b的值,似然函数为

\small L(w ,b)= \prod_{i=1}^{m}p(y_{i})=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(y_{i}-(wx_{i}+b) )^{2}}{2\delta ^{2}})

\small InL(w,b)= \sum_{i=1}^{m}In\frac{1}{\sqrt{2\pi }\delta} +\sum_{i=1}^{m}Inexp(-\frac{(y_{i}-wx_{i}-b )^{2}}{2\delta ^{2}})

\small InL(w,b)= mIn\frac{1}{\sqrt{2\pi }\delta} -\frac{1}{2\delta ^{2}}\sum_{i=1}^{m}(y_{i}-wx_{i}-b )^{2}

其中m,\small \delta均为常数,所以最大化\tiny InL(w,b)等价于最小化

\small \sum_{i=1}^{m}(y_{i}-wx_{i}-b )^{2}

 也即

\small (w^{*},b^{*})=arg_{(w,b)}maxInL(w,b)=arg_{(w,b)}min\sum_{i=1}^{m}(y_{i}-wx_{i}-b )^{2}

求解w和b,其本质上是一个多元函数求最值的问题,更具体的是凸函数求最值的问题。

推导思路:

1.证明

\small E_{(w,b)}= \sum _{i=1}^{m}(y_{i}-wx_{i}-b)^{2}

是关于w和b的凸函数,

2.用凸函数求最值的思路求解w和b。

二、  多元线性回归

1.  由最小二乘法导出损失函数\tiny E_{\hat{w}}

        相比一元线性回归,多元线性回归无非是加了一些特征。所以它的x变成了向量,权重w自然也变成了一个向量。

\small f(x_{i})=w^{T}x_{i}+b

\small f(x_{i})=w_{1}x_{i1}+w_{2}x_{i2}+\cdots +w_{d}x_{id}+b

\small f(x_{i})=w_{1}x_{i1}+w_{2}x_{i2}+\cdots +w_{d}x_{id}+w_{d+1}\cdot 1

\small f(\hat{x_{i}})=\hat{w}^{T}\hat{x_{i}}

写成以上的形式,可以套用最小二乘法了。

由最小二乘法可得

\small E_{\hat{w}}=\sum_{i=1}^{m}(y_{i}-f(\hat{x_{i}}))^{2}=\sum_{i=1}^{m}(y_{i}-\hat{w}^{T}\hat{x_{i}})^{2}

2.  求解\tiny \hat{w}

第一步: 向量化\tiny E_{\hat{w}}得到损失函数

\small E_{\hat{w}}=(y-X\hat{w})^{T}(y-X\hat{w})

第二步: 求里面的未知参数,也就是求\small \hat{w}

\small \hat{w}^{*}=argmin_{\hat{w}}(y-X\hat{w})^{T}(y-X\hat{w})

求解\small \hat{w}仍然是一个多元函数求最值点的问题,同样也是凸函数求最值的问题。

推导思路:

1). 证明

\small E_{\hat{w}}=(y-X\hat{w})^{T}(y-X\hat{w})

是关于\small \hat{w}的凸函数, 

2). 使用凸函数求最值的思路求解出\small \hat{w}

三、  对数几率回归

        对数几率函数是一种"Sigmoid函数",它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。将对数几率函数作为\small g^{-}(\cdot )得到

\small y=\frac{1}{1+e^{-(w^{T}x+b)}}

以上式子实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为对数几率回归(logisticregression,亦称logit regression)。

四、  二分类线性判别分析

        线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法。LDA的思想非常朴素: 给定训练集样例,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

        欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即\small w^{T}\Sigma _{0}w\small w^{T}\Sigma _{1}w尽可能小;而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即\small ||w^{T}\mu _{0}-w^{T}\mu _{1}||_{2}^{2}尽可能大。同时考虑二者,则可得到最大化目标:

\small J\doteq \frac{||w^{T}\mu _{0}-w^{T}\mu _{1}||_{2}^{2}}{w^{T}\Sigma _{0}w+w^{T}\Sigma _{1}w}=\frac{||w^{T}(\mu _{0}-\mu _{1})(\mu _{0}-\mu _{1})^{T}||_{2}^{2}}{w^{T}(\Sigma _{0}+\Sigma _{1})w}

定义“类内散度矩阵”\tiny S_{w}以及“类间散度矩阵”\tiny S_{b},则

\small J\doteq \frac{w^{T}S_{b}w}{w^{T}S_{w}w}

这就是LDA最大化的目标,即\tiny S_{b}\tiny S_{w}的广义瑞利商。若w是一个解,则对于任意常数\small \alpha\small \alpha w也是所求解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值