机器学习 —— 2 线性回归

最新推荐文章于 2024-05-18 10:19:38 发布

ashome123

最新推荐文章于 2024-05-18 10:19:38 发布

阅读量259

点赞数

分类专栏：机器学习文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/ashome123/article/details/112861757

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

一、一些简单的概率统计

1.概念

概率：对随机事件发生可能性大小的度量
条件概率：事件B已发生的条件下，事件A发生的概率，记作 $\mid B)$
联合概率：A和B共同发生的概率，称事件A和B的联合概率，记为 $P (A, B)$
独立事件：事件A(或B)是否发生对事件B(或A)的发生概率没有影响，则称A和B为相互独立事件
条件独立：在给定C的条件下，若事件A和B满足 $\mid C)=P(A,C) \cdot P(B,C)$ 或 $\mid B,C)= P(A \mid C)$ ，则称在给定C的情况下A和B独立

2.全概率公式&贝叶斯公式

乘法原理
$\begin{aligned} P(A,B) & =P(A \mid B) \cdot P(B) \\ & = P(B \mid A) \cdot P(A) \end{aligned}$
全概率公式
A为任一事件， $B_1,B_2,...,B_n$ 是样本空间 $\Omega$ 的一个划分，且 $B_i$ 两两互斥， $P(B_i)>0,(i=1,2,...,n)$ ，那么有：
$P(A)=\sum^n_{i=1}P(A,B_i)=\sum^n_{i=1}P(A \mid B_i)P(B_i)$
贝叶斯公式
$P(B_i \mid A)=\frac{P(B_i)P(A \mid B_i)}{\sum^n_{j=1}P(B_j)P(A \mid B_j)}$

3.随机变量

概率密度函数
是描述随机变量输出值在某确定取值点附近可能性的函数，图中红色 $p (x)$ 为概率密度函数，蓝色 $P (x)$ 为分布函数， $P (x)$ 由 $p (x)$ 积分得到。
期望
描述一个随机变量所取值的概率平均
离散型： $E[X]=\sum^\infin_{k=1}x_kp_k$
连续型： $E[X]=\int^{+\infin}_{-\infin}xf(x)dx$
方差
随机变量的方差描述的该随机变量的值偏离其期望值的程度
离散型：
$\begin{aligned} Var(x) & = E[X-E(X)]^2 \\ & = \sum^\infin_{k=1}[x_k-E(X)]^2p_k \\ & = E(X^2)-E(X)^2 \end{aligned}$
连续型：
$Var(X)=\int^{+\infin}_{-\infin}[x-E(x)]^2f(x)dx$

4.高斯分布

一维高斯分布
$\mathcal{N}(x \mid \mu,\sigma^2)=(2\pi\sigma^2)^{-\frac{1}{2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$
多维高斯分布
$\mathcal{N}(x \mid \mu,\Sigma)=\frac{1}{(2\pi)^{\frac{D}{2}}} \frac{1}{|\Sigma|^\frac{1}{2}} \exp\{-\frac{1}{2}(x-\mu)^\mathrm{T}\Sigma^{-1}(x-\mu)\}$

5.极大似然估计

似然函数
$p(x_1,x_2,...,x_n)=\prod^N_{j=1}p(x_j \mid \theta)$
若似然函数可微，则可对微分方程进行求解，作为极值的必要条件：
$\frac{\partial p(x_1,x_2,...,x_n \mid \theta)}{\partial \theta}=0 \quad 或 \quad \frac{\partial \ln p(x_1,x_2,...,x_n \mid \theta)}{\partial \theta}$

二、线性回归模型

假设函数 $f$ 为输入 $x$ 的线性函数：
$\begin{aligned} f(x) & = w_0+w_1x_1+...+w_mx_m \\ & = w_0 + \sum^m_{j=1}w_ix_i \\ & = \textbf{w}^{\mathrm{T}} \textbf{x} \end{aligned}$

将线性回归拓展到非线性：引入基函数
在这里插入图片描述

三、线性回归求解算法

问题的本质：确定模型中的参数 $\textbf{w}^{\mathrm{T}}$
基本思想：基于训练集最小化预测值 $f$ 与真是输出值 $y$ 的差异
目标函数（或代价函数）：
$J(\textbf{w})=\frac{1}{2}\sum^N_{i=1}(f(x_i)-y_i)^2$ 进一步得到参数：
$\hat{\textbf{w}}=\argmin_\textbf{w}=\argmin_\textbf{w}\frac{1}{2}\sum^N_{i=1}(f(x_i)-y_i)^2$
求解算法：
1. 梯度下降法：BGD，SGD，MBGD
2. 标准方程组

1.梯度下降法

为了使损失函数 $J (w)$ 最小，首先对 $w$ 赋初值，这个值可以是随机的，也可以是一个全零的向量；之后不断更新 $w$ 的值，使得 $J (w)$ 按梯度下降的方向进行减少，直到收敛。
在这里插入图片描述

批处理梯度下降(BGD - Batch Gradient Descent)
每次利用所有的数据更新参数 $w$ （同时更新 $w$ 的各个维度， $\alpha$ 为学习率）：
$w^t_j=w^{t-1}_j-\alpha \frac{\partial}{\partial w_j}J(w) \\ \frac{\partial}{\partial w_j}J(w) = \sum^N_{i=1}(f(x_i)-y_i)x_{i,j}$ 在大样本条件上下，BGD的迭代速度很慢
随机梯度下降(SGD - Stochastic Gradient Descent)
SGD又称为在线学习，基本思想为如果条件对所有样本成立，则对任一样本也成立。每次只用一个样本 $x_r,y_r)$ 对参数 $\textbf{w}$ 进行更新：
$w^t_j=w^{t-1}_j-\alpha(f(x_r)-y_r)$ SGD收敛速度快，不太容易陷入局部最优，对大样本数据较有效。
小批量处理梯度下降(MBGD - Mini-Batch Gradient Descent)
介于上述两种方法之间，每次更新用一部分样本对参数 $\textbf{w}$ 进行更新。

2.标准方程组

将目标函数改写成矩阵形式：
$\begin{aligned} J(\textbf{w}) & =\sum^N_{i=1}(\textbf{w}^{\mathrm{T}}x_i-y_i)^2 \\ & = (X\textbf{w}-y)^{\textbf{T}}(X\textbf{w}-y) \end{aligned}$
其中
$\begin{pmatrix} \textbf{x}^{\mathrm{T}}_1 \\ \textbf{x}^{\mathrm{T}}_2 \\ \vdots \\ \textbf{x}^{\mathrm{T}}_N \end{pmatrix}= \begin{pmatrix} x_{11} & x_{12} & \ldots & x_{1m} \\ x_{21} & x_{22} & \ldots & x_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N1} & x_{N2} & \ldots & x_{Nm} \end{pmatrix} \quad \quad \textbf{y}= \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}^{\mathrm{T}}$
对 $\mathrm{w}$ 求偏导：
$\begin{aligned} \frac{\partial}{\partial \textbf{w}}J(\textbf{w}) & = \frac{\partial}{\partial \textbf{w}}(X\textbf{w}-\textbf{y})^{\mathrm{T}}(X\textbf{w}-\textbf{y}) \\ & = 2X^{\mathrm{T}}(X\textbf{w}-\textbf{y}) \end{aligned}$
令偏导数等于0，可得：
$\hat{\textbf{w}}=(X^{\mathrm{T}}X)^{-1}X^{\mathrm{T}}\textbf{y}$

3.两种方法的对比

在这里插入图片描述

四、回归模型的深入探讨

我们可以将每一个数据样本点看作是在回归曲线的基础之上加入了一个高斯噪声。即对于点 $x_0$ ，其对应的曲线拟合回归值为 $y(x_0,\textbf{w})$ ，对应的真实样本观测值为 $t$ ，则可以将 $t$ 看作是由高斯分布 $\mid x_0,\textbf{w},\beta)=\mathcal{N}(t\mid y(x,\textbf{w}), \beta^{-1})$ 生成得到的，其中 $\beta^{-1}=\sigma^2$
在这里插入图片描述
于是模型为：
$t=y(\textbf{x},\textbf{w}) + \epsilon \quad \quad \quad p(\epsilon \mid \beta)=\mathcal{N}(\epsilon \mid 0,\beta^{-1})$

1.极大似然估计

基本思想：把待估计的参数看做是确定的量，只是其取值未知。最佳估计就是使得产生以观测到的样本的概率最大的那个值。
根据定义的模型可以得到似然函数和对数似然函数：
$\mid \textbf{x},\textbf{w},\beta)=\prod^N_{n=1}\mathcal{N}(t\mid y(x,\textbf{w}), \beta^{-1}) \\ \ln p(t \mid \textbf{x},\textbf{w},\beta)=-\frac{\beta}{2}\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2 + \frac{N}{2}\ln \beta - \frac{N}{2} \ln(2\pi)$ 观察上式可以发现，最大化对数似然函数 $\ln p(t \mid \textbf{x},\textbf{w},\beta)$ 等价于最小化 $\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2$ ，这与之前定义的MSE目标函数 $J(\mathrm{w})$ 是相同的。

2.最大后验估计(MAP)

基本思想：把待估计的参数看做是符合某种先验概率分布的随机变量。对样本进行观测的过程，就是把先验概率密度转化为后验概率密度，从而利用样本信息修正了对参数的初始估计值。
根据贝叶斯公式得到：
$p(\textbf{w} \mid \textbf{x},\textbf{t},\alpha,\beta) \propto p(\textbf{t} \mid \textbf{x},\textbf{w},\beta)p(\textbf{w} \mid \alpha)$ 其中 $p(\textbf{w} \mid \alpha)$ 为参数 $\textbf{w}$ 的先验分布，定义为均值为0的高斯分布：
$\begin{aligned} p(\textbf{w} \mid \alpha)& =\mathcal{N}(\textbf{w} \mid \textbf{0},\alpha^{-1}\textbf{I}) \\ & = (\frac{\alpha}{2\pi})^{\frac{M+1}{2}} \exp(-\frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}) \end{aligned}$ 则似然函数及对数似然函数为：
$p(\textbf{w} \mid \textbf{x},\textbf{t},\alpha,\beta)=\prod^N_{n=1}\mathcal{N}(t\mid y(x,\textbf{w}), \beta^{-1}) \cdot (\frac{\alpha}{2\pi})^{\frac{M+1}{2}} \exp(-\frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}) \\ \ln p(\textbf{w} \mid \textbf{x},\textbf{t},\alpha,\beta)=-\frac{\beta}{2}\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2 + \frac{N}{2}\ln \beta - \frac{N}{2} \ln(2\pi) + \frac{M+1}{2} \ln(\frac{\alpha}{2\pi}) - \frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}$ 观察到最大化上述对数似然函数等价于最小化下式：
$\beta \hat{E}(\textbf{w})=\frac{\beta}{2}\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2 + \frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}$ 可以发现，这相当于在目标函数 $J(\textbf{w})$ 中加入了二次正则化项。

ashome123

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习 —— 2 线性回归

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录一、一些简单的概率统计1.概念2.全概率公式&贝叶斯公式3.随机变量3.高斯分布一、一些简单的概率统计1.概念概率：对随机事件发生可能性大小的度量条件概率：事件B已发生的条件下，事件A发生的概率，记作P(A∣B)P(A \mid B)P(A∣B)联合概率：A
复制链接

扫一扫