Task02: 详读西瓜书+南瓜书第3章

最新推荐文章于 2024-07-20 17:10:09 发布

m0_54783477

最新推荐文章于 2024-07-20 17:10:09 发布

阅读量208

点赞数

分类专栏：西瓜书和南瓜书文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_54783477/article/details/125374112

版权

西瓜书和南瓜书专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、一元线性回归

1. 机器学习三要素

1). 模型：根据具体问题，确定假设空间

2). 策略：根据评价标准，确定选取最优模型的策略（通常会产出一个“损失函数”）

3). 算法：求解损失函数，确定最优模型

2. 算法原理

1) 将收集到的数据，根据经验和数据形态，建直线模型，f(x)=wx+b，也可以写成y=wx+b

2) 求这样一条直线，确定w,b

均方误差亦称平方损失（square loss)，是回归任务中最常用的性能度量，对应了常用的欧氏距离。基于均方误差最小化进行模型求解的方法称为最小二乘法。求解w和b使

$\small E_{(w,b)}= \sum _{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$

最小化的过程，称为线性回归模型的最小二乘“参数估计”(parameter estimation)。 $\tiny E_{(w,b)}$ 分别对w,b求导，得到

$\small \frac{\partial E_{(w,b)}}{\partial w}= 2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})$ ,

$\small \frac{\partial E_{(w,b)}}{\partial b}= 2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))$ .

令以上两式为零，可得到w和b最优解的闭式(closed-form)解

$\small w=\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}}$ ,

$\small b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})$ .

其中

$\small \bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}$

为x的均值。

2. 极大似然估计概率分布的参数值

1）方法

对于离散型(连续型)随机变量X，假设其概率质量函数为 $\tiny P(x;\theta )$ (概率密度函数 $\tiny P(x;\theta )$ )，其中 $\small \theta$ 为待估计的参数值。现有 $\small x_{1},x_{2},x_{3},\cdots ,x_{n}$ 是来自X的n个同分布的样本，它们的联合概率为

$\small L(\theta )=\prod_{i=1}^{n}P(x_{i};\theta )$

其中 $\small x_{1},x_{2},x_{3},\cdots ,x_{n}$ 是已知量， $\small \theta$ 是未知量， $\tiny L(\theta )$ 为样本的似然函数。极大似然估计的直观想法是使得观测样本出现概率最大的分布就是待求分布，也即使得联合概率(似然函数) $\tiny L(\theta )$ 取到最大值的 $\small \theta ^{*}$ 即为 $\small \theta$ 的估计值。

2）示例步骤

极大似然估计其观测样本服从某个正态分布 $\tiny X\sim N(\mu ,\delta ^{^{2}})$ 的 $\tiny \mu ,\delta$ ：

第一步: 写出随机变量X的概率密度函数

$\small p(x;\mu ,\delta ^{2})=\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x-\mu )^{2}}{2\delta ^{2}})$

第二步: 写出似然函数

$\small L(\mu ,\delta ^{2})= \prod_{i=1}^{n}p(x_{i};\mu ,\delta ^{2})=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x_{i}-\mu )^{2}}{2\delta ^{2}})$

第三步: 求出使得 $\tiny L(\mu ,\delta^{2} )$ 取得最大值的 $\tiny \mu ,\delta$

第四步: 用 $\tiny InL(\mu ,\delta ^{2})$ 化简 $\tiny L(\mu ,\delta^{2} )$ 中的连乘项

$\small InL(\mu ,\delta ^{2})= In[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x_{i}-\mu )^{2}}{2\delta ^{2}})]= \sum_{i=1}^{n}In\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(x_{i}-\mu )^{2}}{2\delta ^{2}})$

3) 推导一元线性回归

对于线性回归来说，也可以假设其为以下模型

$\small y=wx+b+\varepsilon$

其中 $\small \varepsilon$ 为不受控制的随机误差，通常假设其服从均值为0的正态分布 $\tiny \varepsilon \sim N(0,\delta^{^{2}})$ ，所以 $\small \varepsilon$ 的概率密度函数为

$\small p(\varepsilon )=\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{\varepsilon ^{2}}{2\delta ^{2}})$

若将 $\small \varepsilon$ 用 $\small y-(wx+b)$ 等价替换可得：

$\small p(y)= \frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(y-(wx+b))^{^{2}}}{2\delta ^{^{2}}})$

上式显然可以看作

$\small y\sim N(wx+b,\delta ^{2})$

用极大似然估计w和b的值，似然函数为

$\small L(w ,b)= \prod_{i=1}^{m}p(y_{i})=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(y_{i}-(wx_{i}+b) )^{2}}{2\delta ^{2}})$

$\small InL(w,b)= \sum_{i=1}^{m}In\frac{1}{\sqrt{2\pi }\delta} +\sum_{i=1}^{m}Inexp(-\frac{(y_{i}-wx_{i}-b )^{2}}{2\delta ^{2}})$

$\small InL(w,b)= mIn\frac{1}{\sqrt{2\pi }\delta} -\frac{1}{2\delta ^{2}}\sum_{i=1}^{m}(y_{i}-wx_{i}-b )^{2}$

其中m, $\small \delta$ 均为常数，所以最大化 $\tiny InL(w,b)$ 等价于最小化

$\small \sum_{i=1}^{m}(y_{i}-wx_{i}-b )^{2}$

也即

$\small (w^{*},b^{*})=arg_{(w,b)}maxInL(w,b)=arg_{(w,b)}min\sum_{i=1}^{m}(y_{i}-wx_{i}-b )^{2}$

求解w和b，其本质上是一个多元函数求最值的问题，更具体的是凸函数求最值的问题。

推导思路：

1.证明

$\small E_{(w,b)}= \sum _{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$

是关于w和b的凸函数，

2.用凸函数求最值的思路求解w和b。

二、多元线性回归

1. 由最小二乘法导出损失函数 $\tiny E_{\hat{w}}$

相比一元线性回归，多元线性回归无非是加了一些特征。所以它的x变成了向量，权重w自然也变成了一个向量。

$\small f(x_{i})=w^{T}x_{i}+b$

$\small f(x_{i})=w_{1}x_{i1}+w_{2}x_{i2}+\cdots +w_{d}x_{id}+b$

$\small f(x_{i})=w_{1}x_{i1}+w_{2}x_{i2}+\cdots +w_{d}x_{id}+w_{d+1}\cdot 1$

$\small f(\hat{x_{i}})=\hat{w}^{T}\hat{x_{i}}$

写成以上的形式，可以套用最小二乘法了。

由最小二乘法可得

$\small E_{\hat{w}}=\sum_{i=1}^{m}(y_{i}-f(\hat{x_{i}}))^{2}=\sum_{i=1}^{m}(y_{i}-\hat{w}^{T}\hat{x_{i}})^{2}$

2. 求解 $\tiny \hat{w}$

第一步: 向量化 $\tiny E_{\hat{w}}$ 得到损失函数

$\small E_{\hat{w}}=(y-X\hat{w})^{T}(y-X\hat{w})$

第二步: 求里面的未知参数，也就是求 $\small \hat{w}$

$\small \hat{w}^{*}=argmin_{\hat{w}}(y-X\hat{w})^{T}(y-X\hat{w})$

求解 $\small \hat{w}$ 仍然是一个多元函数求最值点的问题，同样也是凸函数求最值的问题。

推导思路：

1). 证明

$\small E_{\hat{w}}=(y-X\hat{w})^{T}(y-X\hat{w})$

是关于 $\small \hat{w}$ 的凸函数，

2). 使用凸函数求最值的思路求解出 $\small \hat{w}$ 。

三、对数几率回归

对数几率函数是一种"Sigmoid函数"，它将z值转化为一个接近0或1的y值，并且其输出值在z=0附近变化很陡。将对数几率函数作为 $\small g^{-}(\cdot )$ 得到

$\small y=\frac{1}{1+e^{-(w^{T}x+b)}}$

以上式子实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率，因此，其对应的模型称为对数几率回归(logisticregression，亦称logit regression)。

四、二分类线性判别分析

线性判别分析(Linear Discriminant Analysis，简称LDA)是一种经典的线性学习方法。LDA的思想非常朴素: 给定训练集样例，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

欲使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小，即 $\small w^{T}\Sigma _{0}w$ 和 $\small w^{T}\Sigma _{1}w$ 尽可能小；而欲使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即 $\small ||w^{T}\mu _{0}-w^{T}\mu _{1}||_{2}^{2}$ 尽可能大。同时考虑二者，则可得到最大化目标:

$\small J\doteq \frac{||w^{T}\mu _{0}-w^{T}\mu _{1}||_{2}^{2}}{w^{T}\Sigma _{0}w+w^{T}\Sigma _{1}w}=\frac{||w^{T}(\mu _{0}-\mu _{1})(\mu _{0}-\mu _{1})^{T}||_{2}^{2}}{w^{T}(\Sigma _{0}+\Sigma _{1})w}$