机器学习02

最新推荐文章于 2024-05-03 11:07:56 发布

@小冯@

最新推荐文章于 2024-05-03 11:07:56 发布

阅读量887

点赞数 21

分类专栏：吃瓜之路文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_52052302/article/details/134978825

版权

吃瓜之路专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器学习02-第三章

算法原理
线性回归的最小二乘估计和极大似然估计
求解w和b
机器学习三要素
由最小二乘法导出损失函数 $E_{\hat{w}}$
求解 $\hat{w}$
对数几率回归
二分类线性判别分析

算法原理

正交回归和线性回归
- 线性回归：预测误差（点到直线平行与y轴的距离）最小的那条直线，即均方误差最小，因此有线性回归函数的损失函数
- 正交回归：点到线垂直距离最小的那条直线

线性回归的最小二乘估计和极大似然估计

最小二乘估计
- 基于均方误差最小化进行模型求解

$arg min_{(w,b)}$ :表示求公式值最小时的w和b

极大似然估计
- 用途：估计概率分布的参数值
- 例题：

计算技巧：

一元线性回归极大似然估计推导一元线性回归

求解w和b

多元函数求最值点问题（凸函数最值点）
对w，b求一阶偏导＝0
凸集：若两个点属于此集合，则这两点连线上的任意一点均属于此集合，常见的凸集有空集，n维欧氏空间
凸函数：机器学习和高数中的不一样，因为机器函数使用的时最优化后的，在此，机器学习上的凸函数是数学定义的凹函数
梯度（多元函数的一阶导）-列向量
海塞矩阵（多元函数的二阶导数）：

修改：如果是半正定的，那么就是凸函数，如果是正定的，就是严格的凸函数

求证过程

机器学习三要素

模型：根据具体问题，确定假设空间
策略：根据评价标准，确定选取最优模型的策略
算法：求解损失函数，确定最优模型

由最小二乘法导出损失函数 $E_{\hat{w}}$

求解 $\hat{w}$

对数几率回归

算法原理

在线性模型的基础上套一个映射函数来实现分类功能

损失函数的极大似然估计推导

第一步：确定概率质量函数
$p(y=1|x)=\frac{1}{1+e^{-(w^{T}x+b)}}=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}$
$p(y=0|x)=1-p(y=1|x)=\frac{1}{1+e^{w^{T}x+b}}$
为了便于讨论，令 $\beta=(w;b),\mathbf{\hat{x}} =(\mathbf{x};1)$ ,则上式可以简写为
$p(y=1|\mathbf{\hat{x}};\beta)=\frac{e^{\beta^{T}}\mathbf{\hat{x}} }{1+e^{\beta^{T}}\mathbf{\hat{x}}}=p_1(\mathbf{\hat{x}};\beta)$
$p(y=0|\mathbf{\hat{x}};\beta)=\frac{1 }{1+e^{\beta^{T}}\mathbf{\hat{x}}}=p_0(\mathbf{\hat{x}};\beta)$
由以上概率取值可推得随机变量 $y\epsilon{0,1}$ 的概率质量函数为
$p(y|\mathbf{\hat{x}};\beta)=y\cdot p_1(\mathbf{\hat{x}};\beta)+(1-y)\cdot p_0(\mathbf{\hat{x}};\beta)或者p(y|\mathbf{\hat{x}};\beta)=\begin{bmatrix} p_1(\mathbf{\hat{x}};\beta) \end{bmatrix}^y \begin{bmatrix} p_0(\mathbf{\hat{x}};\beta) \end{bmatrix}^{1-y}$
第二步：写出似然函数
$L(\beta)=\prod_{i=1}^{m} p(y_i|\mathbf{\hat{x}_i};\beta)$ 对数似然函数为
$\ell(\beta)=\ln(L(\beta))=\sum_{i=1}^{m}\ln(p(y_i|\mathbf{\hat{x}_i};\beta))$
$\ell(\beta)=\sum_{i=1}^{m}\ln(y_i\cdot p_1(\mathbf{\hat{x}_i};\beta)+(1-y_i)\cdot p_0(\mathbf{\hat{x}_i};\beta))$
将 $p_1(\mathbf{\hat{x}_i};\beta)=\frac{e^{\beta^{T}}\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}，p_0(\mathbf{\hat{x_i}};\beta)=\frac{1}{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}$ 带入上式可得
$\ell=\sum_{i=1}^{m}\ln(\frac{y_ie^{\beta^{T}}\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}+\frac{1-y_i}{1+e^{\beta^{T}}\mathbf{\hat{x}_i}})=\sum_{i=1}^{m}\ln(\frac{y_ie^{\beta^{T}}+1-y_i\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}})$
由于 $y_i\epsilon{0,1}$ 则
$\ell(\beta)=\left\{\begin{matrix} \sum_{i=1}^{m}(-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ),y_i=0\\ \sum_{i=1}^{m}(\beta^{T}\mathbf{\hat{x}_i}-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ),y^i=1\end{matrix}\right.$ 两式综合可得
$\ell(\beta)=\sum_{i=1}^{m}(y_i\beta^{T}\mathbf{\hat{x}_i}-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) )$

损失函数的信息论推导

信息论：以概率论、随机过程为基本研究工具，研究广义通信系统的整个过程。常见的应用由无损数据压缩（如ZIP文件）、有损数据压缩（如MP3和JPEG）等
- 自信息： $I(X)=-\log_{b}^{p(x)}$ ,当b=2时单位时bit，当b=e时单位为net
- 信息熵（自信息上网期望）：度量随机变量X的不确定性，信息熵越大越不确定
  $H(X)=E[I(x)]=-\sum_xp(x)\log_bp(x)$ （此处以离散型为例）
- 计算熵是约定：若p(x)=0，则 $p(x)\log_bp(x)=0$
- 相对熵（KL散度）：度量两个分布的差异，其典型使用场景是用来度量理想分布如 $p (x)$ 和模拟分布 $q (x)$ 之间的差异
  $D_{KL}(p||q)=\sum_xp(x)\log_b(\frac{p(x)}{q(x)})=\sum_xp(x)\log_bp(x)-\sum_xp(x)\log_bq(x)$ ,其中 $-\sum_xp(x)\log_bq(x)$ 称为交叉熵
- 从“策略”角度来讲，与理想分布最接近的模拟分布即为最有分布，因此可以通过最小化相对熵这个策略来求出最有分布，由于理想分布p(x)是未知但固定的分布（频率学派的角度），所以 $\sum_xp(x)\log_bq(x)$ 为常量，那么最小化相对熵就等价于最小化交叉熵 $-\sum_xp(x)\log_bq(x)$

带入后

全体训练样本的交叉熵为

对数几率回归算法的机器学习三要素
- 模型：线性模型，输出范围为[0,1],近似阶跃的单调可微函数
- 策略：极大似然估计，信息论
- 算法：梯度下降，牛顿法

二分类线性判别分析

算法原理

从几何的角度，让全体训练样本经过投影后：
- 异类样本的中心尽可能远
- 同类样本的方差尽可能小

损失函数推导

经过投影后，异类样本中心尽可能远
$max||w^T\mu_0-w^T\mu_1||_2^2$ (二范数：求向量模长）
$max|||w|\cdot |\mu_0|\cdot \cos\theta_0-|w|\cdot |\mu_1|\cdot \cos\theta_1||_2^2$
经过投影后，同类样本的方差尽可能小
$w^T\sum_0w$

拉格朗日乘子法

对于仅含等式的优化问题：
$\underset{x}{\min}$ $f (x)$
$s . t .$ $h_i(x)=0$ $i = 1, 2..., n$
其中自变量 $x\epsilon R^n,f(x)和h(x)$ 均有连续的一阶偏导数，首先列入其拉格朗日函数
$L(x,\lambda )=f(x)+\sum_{i=1}^n\lambda_ih_i(x)$ ,其中 $\lambda=(\lambda_1,\lambda_2,...,\lambda_n)^T$ 为拉格朗日乘子，然后对拉格朗日函数关于x求偏导，并令倒数等于0再搭配约束条件 $h_i(\mathbf{x})=0$ 求出x,求解出的所有x即为上述优化问题的所有可能极值点