回归分析及二分类逻辑回归模型:交叉熵损失函数

最新推荐文章于 2024-07-22 10:08:20 发布

天然玩家

最新推荐文章于 2024-07-22 10:08:20 发布

阅读量1.1k

点赞数 2

分类专栏： # 算法解析 # AI ABC 文章标签：回归分析逻辑回归

本文链接：https://blog.csdn.net/Xin_101/article/details/82858061

版权

AI ABC 同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

算法解析

6 篇文章 0 订阅

订阅专栏

本文主要对回归分析解读,包括一元线性回归,多元线性回归和逻辑回归.

1 回归分析

“回归”最早由英国生物学家高尔顿在研究孩子身高与其父母身高关系时提出。研究发现，父母个子高，其子代一般也高，但不如父母那么高；父母个子矮，其子女一般也矮，但没有父母那么矮。下一代身高有向中间值回归的趋势，这种趋于中间值的趋势被称为“回归效应”，而他提出的这种研究两个数值变量关系的方法称为回归分析。
回归的意义：
　　研究一个因变量对若干自变量的依存关系；实质是由自变量去估计因变量的均值。

2 一元线性回归模型

2.1 数学模型

2.1.0 一般方程

$Y_i=\beta_0+\beta_1X_i+u_i$
其中,

变量	注释
$X_i$	自变量,解释变量
$Y_i$	因变量,被解释变量
$\beta_0,\beta_1$	回归系数
$u_i$	为影响 $Y_i$ 的其他因素,是随机误差项

2.1.2 随机误差项假定

假定1:在 $X_i$ 一定的情况下, $u_i$ 的平均值为零,即 $E(u_i)=0$ .
假定2:每个 $X_i$ 对应的随机误差项 $u_i$ 具有相同的常数方差,称为同方差性, $Var(u_i)=\sigma_{u}^2$ .
假定3: $u_i$ 服从正态分布, $u$ ~ $N(0,\sigma^2)$ .
假定4:任意两个 $X_i$ 与 $X_j$ 对应的随机项 $u_i$ 与 $u_j$ 之间是独立不相关的,即 $Cov(u_i,u_j)=0$ ,称为无序列性或无自相关.
假定5:自变量 $X$ 是一组确定性变量,随机扰动项 $u_i$ 与自变量 $X_i$ 无关,即 $Cov(u_i,X_i)=0$ .

2.1.3 总体回归方程

$E(Y_i)=\beta_0+\beta_1X_i$
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.

2.1.4 样本回归方程及模型

样本回归方程
$\hat{Y_{i}}=\hat{\beta_0}+\hat{\beta_1}X_i$
样本回归模型
$Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i$
其中,

变量	注释
$\hat{\beta_0},\hat{\beta_1}$	分别为 $\beta_0,\beta_1$ 的估计值
$e_i$	残差项,也称拟合误差,是 $u_i$ 的估计值

2.2 最小二乘法

2.2.1 基本思路

对模型 $Y_i=\beta_0+\beta_1X_i+u_i$ 通过样本值求 $\beta_0$ , $\beta_1$ 的估计值 $\hat{\beta_0},\hat{\beta_1}$ ,即求解样本回归方程:

$\hat{Y_{i}}=\hat{\beta_0}+\hat{\beta_1}X_i$

2.2.2 拟合准则

问题:如果不加限制,通过样本点 $X_i,Y_i)$ 可以拟合出多条直线.
解决方案:拟合参差 $e_i$ 最小,即 $\sum{e_i^2{}}(min)$ ,通过计算确定一元线性回归模型 $Y_i=\beta_0+\beta_1X_i+u_i$ 参数估计值 $\hat{\beta_0},\hat{\beta_1}$ .

2.2.3 推导过程

二元函数求极值.
令 $F(\hat{\beta_0},\hat{\beta_1})=\sum{e_i^2}=\sum{(Y_i-\hat{Y_i})^2}=\sum{(Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2}$ .
分别对 $\hat{\beta_0},\hat{\beta_1}$ 求偏导

$\frac{\partial{F(\hat{\beta_0},\hat{\beta_1})}}{\partial{\hat{\beta_0}}}= \frac{\partial{\sum{(Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2}}}{\partial{\hat{\beta_0}}}=\sum(Y_i-\beta_0-\beta_1X_i)=0\\ \frac{\partial{F(\hat{\beta_0},\hat{\beta_1})}}{\partial{\hat{\beta_1}}}=\frac{\partial{\sum{(Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2}}}{\partial{\hat{\beta_1}}}=\sum(Y_i-\beta_0-\beta_1X_i)X_i=0 \begin{matrix} \end{matrix}$
求解
$\begin{matrix} \begin{cases} \hat{\beta_0}=\frac{\sum{Y_i-\beta_1Xi}}{n}\\ \hat{\beta_1}=\frac{\frac{1}{n}\sum{X_i}\sum{Y_i}-\sum{X_iY_i}}{\frac{1}{n}(\sum{X_i})^2-\sum{X_i}^2)} \end{cases} \end{matrix}$
解得
$\begin{matrix} \begin{cases} \hat{\beta_1}=\frac{\sum(X_i-\overline{X})(Y_i-\overline{Y})}{\sum(X_i-\overline{X})^2}\\ \hat{\beta_0}=\overline{Y}-\hat{\beta_1}\overline{X} \end{cases} \end{matrix}$
其中,

变量	注释
$\overline{X}=\frac{1}{n}\sum{X_i},\overline{Y}=\frac{1}{n}\sum{Y_i}$ $\overline{X},\overline{Y}$	分别为 $X, Y$ 的均值.
$\sum{(\frac{1}{n}\sum{X_i})^2}=n[(\frac{1}{n})^2(\sum{X_i})^2]$	平均平方值

3 多元线性回归模型

3.1 数学模型

3.1.0 一般方程

$Y=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_mX_m+u$
其中,

变量	注释
$X_1,X_2,\cdots,X_n$	自变量,解释变量
$Y$	因变量,被解释变量
$\beta_0$	常数项，如偏置
$\beta_1$	偏回归系数，如权重
$u$	为影响 $Y$ 的其他因素,是随机误差项
$d$	为分类数量或属性数量

写成矩阵形式：
$Y=\begin{bmatrix} Y_1\\ Y_2\\ \vdots\\ Y_n \end{bmatrix} =\begin{bmatrix} 1 & X_{11} & \cdots & X_{1d}\\ 1 & X_{21} & \cdots & X_{2d}\\ \vdots & \vdots & &\vdots & \\ 1 & X_{n1} & \cdots & X_{nd}\\ \end{bmatrix} \begin{bmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \vdots\\ \beta_d \end{bmatrix} +\begin{bmatrix} u_1\\ u_2\\ \vdots\\ u_n \end{bmatrix}$

将误差项 $u$ 与偏置项 $\beta_0$ 合并为一个参数，将矩阵写为：
$Y=\begin{bmatrix} Y_1\\ Y_2\\ \vdots\\ Y_n \end{bmatrix} =\begin{bmatrix} 1 & X_{11} & \cdots & X_{1d}\\ 1 & X_{21} & \cdots & X_{2d}\\ \vdots & \vdots & &\vdots & \\ 1 & X_{n1} & \cdots & X_{nd}\\ \end{bmatrix} \begin{bmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \vdots\\ \beta_d \end{bmatrix}$
其中，

变量	注释
$X_i=(X_{i1};X_{i2};\cdots;X{id})$	列向量
$\beta^*=(\beta_0;\beta_1;\cdots;\beta_d)$	列向量

自变量矩阵：
$X=\begin{bmatrix} 1&X_1^{T}\\ 1&X_2^{T}\\ \vdots&\vdots\\ 1&X_n^{T} \end{bmatrix}$
$X_1^{T}$ 为向量转置
则有：
$Y=X\beta^*$

3.1.2 假设条件

假设1: $Y$ 与 $X_1,X_2,\cdots,X_n$ 具有线性关系
假设2:各观测值 $Y_i(i=1,2,\cdots,n)$ 相互独立
假设3:参差 $u$ 服从正态分布,即 $u$ ~ $N(0,\sigma^2)$ .

3.1.3 总体回归方程

$E(Y)=\beta_0+\beta_1^*X_1+\beta_2^*X_2+\cdots+\beta_n^*X_m$
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.

3.1.4 样本回归方程及模型

样本回归方程
$\hat{Y}=\hat{\beta_0^*}+\hat{\beta_1^*}X_1+\hat{\beta_2^*}X_2+\cdots+\hat{\beta_n^*}X_n$
样本回归模型
$Y=\hat{\beta_0^*}+\hat{\beta_1^*}X_1+\hat{\beta_2^*}X_2+\cdots+\hat{\beta_n^*}X_n+e$
即：
$e=Y-\hat{Y}$
其中,

变量	注释
$\hat{\beta_0},\hat{\beta_1},\cdots,\hat{beta_m}$	分别为 $\beta_0,\beta_1,\cdots,\beta_m$ 的估计值
$e$	残差项,也称拟合误差,是 $u$ 的估计值

矩阵形式
$\hat{Y}=X\hat{\beta^*}$
其中， $\hat{\beta^*}=(\hat{\beta_0};\hat{\beta_1};\cdots;\hat{\beta_d})$ .

3.2 建立回归方程

3.2.1 原理及原则

同2.2.1及2.2.2.

3.2.2 推导过程

【二元函数求极值】
令
$F(\hat{\beta_0},\hat{\beta_1,\cdots,\hat{\beta_m}})=\sum{e_i^2}=\sum{(Y-\hat{Y})^2}=\sum{(Y-\hat{\beta_0}-\hat{\beta_1}X_i-\cdots-\hat{\beta_m})^2}$ .
分别对 $\hat{\beta_0},\hat{\beta_1},\cdots,\hat{\beta_m}$ 求偏导
$\begin{matrix} \begin{cases} \frac{\partial{F(\hat{\beta_0},\hat{\beta_1,}\cdots,\hat{\beta_m})}}{\partial{\hat{\beta_0}}}=\frac{\partial{\sum{(Y_i-\hat{\beta_0}-\hat{\beta_1}X_i-\cdots-\hat{\beta_m}X_m)^2}}}{\partial{\hat{\beta_0}}}=0\\ \frac{\partial{F(\hat{\beta_0},\hat{\beta_1})}}{\partial{\hat{\beta_2}}}=\frac{\partial{\sum{(Y_i-\hat{\beta_0}-\hat{\beta_1}X_i-\cdots-\hat{\beta_m}X_m)^2}}}{\partial{\hat{\beta_2}}}=0\\ \vdots \\ \frac{\partial{F(\hat{\beta_0},\hat{\beta_1})}}{\partial{\hat{\beta_m}}}=\frac{\partial{\sum{(Y_i-\hat{\beta_0}-\hat{\beta_1}X_i-\cdots-\hat{\beta_m}X_m)^2}}}{\partial{\hat{\beta_m}}}=0 \end{cases} \end{matrix}$
若 $(X^{T}X)_{k\times{k}}$ 是满秩矩阵,其逆存在,解得 $\hat{\beta}=(X^{T}X)^{-1}X^{T}Y$
其中,
$X^{T}$ 是 $X$ 的转置矩阵.
以上,完成多元线性回归分析.

3.2.3 矩阵形式推导

平方误差
$F(\hat{\beta_0^*},\hat{\beta_1^*},\cdots,\hat{\beta_m^*})={e^2}=(Y-X\hat{\beta^*})^{T}(Y-X\hat{\beta^*})$
参数说明

矩阵	维度
Y	n×1
X	n×(d+1)
$\hat{\beta^*}$	(d+1)×1
$(Y-X\hat{\beta^*})^{T}$	1×n
$Y-X\hat{\beta^*}$	n×1
F	1×1

极小值求解
$\frac{\partial F}{\partial \hat{\beta^*}} =\frac{\partial [(Y-X\hat{\beta^*})^{T}(Y-X\hat{\beta^*})]}{\partial \hat{\beta^*}}\\ =(-X)^T(Y-X\hat{\beta^*})+(Y-X\hat{\beta^*})^T(-X)\\ =2X^T(X\hat{\beta^*}-Y)$
令 $\frac{\partial F}{\partial \hat{\beta^*}}=0$ ，则有
$X^TX\hat{\beta^*}-X^TY=0$
当 $X^TX$ 满秩或正定时，有
$\hat{\beta^*}=(X^TX)^{-1}X^TY$

4 逻辑回归

逻辑回归(logistic Regression):研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的多变量分析方法,机器学习中的sigmoid,属于概率型非线性回归模型,但是,其计算方法是以线性回归为基础的,本质是线性回归,因为他只能发现变量间的线性关系.

4.1 逻辑回归模型

$l(x)=\frac{1}{1+e^{-x}}$

在这里插入图片描述

图4.1 示意图

4.2 逻辑回归分析分类

按数据类型

非条件逻辑回归分析(成组数据)
条件逻辑回归分析(配对-对照数据)

按因变量个数

二分类逻辑回归分析
多分类逻辑回归分析

4.3 二分类逻辑回归分析

设因变量 $Y$ 是一个二分类变量,取值为0或1.影响 $Y$ 取值的 $m$ 个自变量分别为 $X_1,X_2,\cdots,X_m$ .在 $m$ 个自变量(暴露因素)作用下 $Y = 1$ 发生的概率为
$P=P(Y=1|X_1,X_2,\cdots,X_m)$
logistic回归模型为
$P=\frac{1}{1+e^{\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_mX_m}}$
$Y = 0$ 发生的概率为
$1-P=\frac{e^{\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_mX_m}}{1+e^{\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_mX_m}}$

logit变换(分对数变换)后,logistic回归模型为
$\log it(p)=\ln(\frac{P}{1-P})=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_mX_m$
回归系数 $\beta_j$ 的意义
当各种暴露因素为0时,
$\log it(p)=\ln(\frac{P}{1-P})=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_mX_m$ $=\beta_0+{\beta_1}\times{0}+{\beta_2}\times{0}+\cdots\beta_m\times{0}$ $=\beta_0$
流行病学常用指标优势比(odds ratio,OR)或比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比,即 $X_i$ 的优势比为
$OR=\frac{\frac{P_1}{1-P_1}}{\frac{P_0}{1-P_0}}$
$\ln(OR)=\log it(\frac{P_1}{1-P_1})-\log it(\frac{P_0}{1-P_0})$ $=\log it[p(1)]-\log it[p(0)]$ $=\beta_0+\beta_iX_i(X_i=1)-(\beta_0+\beta_iX_i(X_i=0))$ $=\beta_j$
当 $\beta_j=0$ 时, $O R = 1$ ,表示因素 $X_j$ 对疾病的发生不起作用;
当 $\beta_j>0$ 时, $O R > 1$ ,表示因素 $X_j$ 是一个危险因素;
当 $\beta_j=0$ 时, $O R < 1$ ,表示因素 $X_j$ 是一个保护因素;
由于 $O R$ 值与模型中的常数项 $\beta_0$ 无关,因此 $\beta_0$ 在危险因素分析中常被视为无效参数.

4.4 logistic回归模型

【数据】
训练数据集: ${x_1,x_2,\cdots,x_m}$
数据分类: ${y_1,y_2,\cdots,y_n}$
构建逻辑回归模型: $f(\beta)$
【对于二分类】
$\begin{cases} p(y=1|x,\beta)=\frac{1}{1+e^{-\beta ^Tx}}\\ p(y=0|x,\beta)=\frac{e^{-\beta ^Tx}}{1+e^{-\beta ^Tx}}=1-p(y=1|x, \beta)=p(y=1|x,-\beta) \end{cases}$
为方便表示,约定如下:
$h_{\beta}(x)=g(\beta ^Tx)=\frac{1}{1+e^{-\beta x}}\\ g(z)=\frac{1}{1+e^z}$
则有:
$\beta)=p(y=1|x, \beta)^y[1-p(y=1|x, \beta)]^{1-y} \\=[h_{\beta}(x)]^y[1-h_{\beta}]^{1-y}$
其中 $y = 0 o r 1$ .

4.5 logistic回归模型参数估计:最大似然估计

logistic回归模型参数估计采用最大似然估计,建立似然函数与对数似然函数,求使对数似然函数最大时的最大值,其估计值即为最大似然估计值.
建立样本似然函数
$L(\beta|x, y)=\prod_{i=1}^{n}p(y|x,\beta)=[h_{\beta}(x)]^{y_i} [1-h_{\beta}]^{1-y_i}\\=P_{i}^{Y_i}(1-P_i)^{1-Y_i}(i=1,2,\cdots,n)$
其中,
$P_i$ 表示第 $i$ 个观察对象处于暴露条件下 $Y = 1$ 时发生的概率.
根据最大似然原理,似然函数 $L$ 应取最大值,对数似然函数为
$l(\beta)=\ln L(\beta)=\sum_{i=1}^{m}[y_i\ln [h_{\beta}(x)]+(1-y_i)\ln [1-h_{\beta}]]\\=\sum_{i=1}^{m}[Y_i\ln P_i+(1-Y_i)\ln (1-P_i)]$
其中,
对参数 $\beta_j(j=1,2,\cdots,m)$ ,令 $\ln L$ 的一阶导数为零,即 $\frac{\partial{\ln L}}{\partial{\beta_j}}=0$ ,利用Newton-Raphson迭代方法接方程组,求得 $\beta_j$ 的估计值 $b_j$ 和 $b_j$ 的渐进标准误差 $S_{b_j}$ .

4.6 梯度下降

【目标函数】 $l(\beta)=\ln L(\beta)=\sum_{i=1}^{m}[y_i\ln [h_{\beta}(x)]+(1-y_i)\ln [1-h_{\beta}]]$
【导数(梯度)】
$\frac{\partial l(\beta)}{\partial \beta_j}=\frac{\partial \sum_{i=1}^{m}[y_i\ln [h_{\beta}(x_i)]+(1-y_i)\ln [1-h_{\beta}(x_i)]]}{\partial \beta_j}\\ =[\frac{y_i}{h_{\beta}(x_i)}-(1-y_i)\frac{1}{1-h_{\beta}{(x_i)}}]\frac{\partial(h_{\beta}(x_i))}{\partial \beta_j}\\ =[\frac{y_i}{g(\beta^T x_i)}-(1-y_i)\frac{1}{1-g(\beta^T x_i)}]\frac{\partial(g(\beta^T x_i))}{\partial_{\beta_j}}\\ =[\frac{y_i}{g(\beta^T x_i)}-(1-y_i)\frac{1}{1-g(\beta^T x_i)}][\frac{e^{-\beta^{T}x_i}}{(1+e^{\beta^{T}x})^2}]\frac{\partial \beta^Tx_i}{\partial \beta_j}\\ =[\frac{y_i}{g(\beta^T x_i)}-(1-y_i)\frac{1}{1-g(\beta^T x_i)}][g(\beta^Tx_i)(1-g(\beta^Tx_i))]\frac{\partial \beta^Tx_i}{\partial \beta_j}\\ =[y_i-g(\beta^Tx_i)]x_{ij}$
迭代公式:
$\beta_{j+1}=\beta_j+\eta[y_i-g(\beta^Tx_i)]x_{ij}$
其中:
$(log_ax)'=\frac{1}{x\ln a}\\ (a^x)'=a^x\ln a\\ g(\beta^Tx_i)=\frac{1}{1+e^{-\beta^Tx_i}}\\ \frac{e^{-\beta^{T}x}}{(1+e^{\beta^{T}x})^2}=\frac{1}{1+e^{\beta^{T}x}}(1-\frac{1}{1+e^{\beta^{T}x}})\\=g(\beta^Tx_i)(1-g(\beta^Tx_i))\\ \eta:learning_-rate$

5 交叉熵

5.1 交叉熵函数

交叉熵函数即待优化的目标函数,来自最大似然估计,计算估计值与真实值的偏差,检验并选择最优结果.
$l(\beta)=\ln L(\beta)=-\frac{1}{m}\sum_{i=1}^{m}[y_i\ln [h_{\beta}(x)]+(1-y_i)\ln [1-h_{\beta}]]$

5.2 梯度

梯度用于优化迭代时使用.
对参数 $\beta_j$ 求导,获取导数(梯度):
$\frac{\partial l(\beta)}{\partial \beta_j}=-\frac{1}{m}\frac{\partial \sum_{i=1}^{m}[y_i\ln [h_{\beta}(x_i)]+(1-y_i)\ln [1-h_{\beta}(x_i)]]}{\partial \beta_j}\\ =-\frac{1}{m}[\frac{y_i}{h_{\beta}(x_i)}-(1-y_i)\frac{1}{1-h_{\beta}{(x_i)}}]\frac{\partial(h_{\beta}(x_i))}{\partial \beta_j}\\ =-\frac{1}{m}[\frac{y_i}{g(\beta^T x_i)}-(1-y_i)\frac{1}{1-g(\beta^T x_i)}]\frac{\partial(g(\beta^T x_i))}{\partial_{\beta_j}}\\ =-\frac{1}{m}[\frac{y_i}{g(\beta^T x_i)}-(1-y_i)\frac{1}{1-g(\beta^T x_i)}][\frac{e^{-\beta^{T}x_i}}{(1+e^{\beta^{T}x})^2}]\frac{\partial \beta^Tx_i}{\partial \beta_j}\\ =-\frac{1}{m}[\frac{y_i}{g(\beta^T x_i)}-(1-y_i)\frac{1}{1-g(\beta^T x_i)}][g(\beta^Tx_i)(1-g(\beta^Tx_i))]\frac{\partial \beta^Tx_i}{\partial \beta_j}\\ =-\frac{1}{m}[y_i-g(\beta^Tx_i)]x_{ij}$

5.3 信息熵

$H(p,q)=-\sum_xp(x)\log q(x)$
其中 $x\in[0,1]$ ,按照分类取值,如样本分为三类,则 $x$ 可能取值[1, 0, 0],[0.4, 0.2, 0.4].

6 总结

(1) 回归:研究变量间的关系,即自变量估计因变量;
(2) 回归分为线性回归和非线性回归,其中,线性回归的目标函数(优化函数)使用均方差构建;非线性回归的目标函数(优化函数)使用概率模型最大似然估计构建;逻辑回归理论上也是线性回归,只能发现变量间的线性关系;
(3) 交叉熵为非线性回归,使用最大似然估计构建目标函数;
(4) 优化目标函数分为传统优化和现代优化,传统优化的特点是预先设置误差点,满足误差,即停止迭代;现代优化,属于模糊优化,不设置误差范围,只设定迭代轮数,迭代结束评价模型:构建回归模型 $\to$ 构造目标函数 $\to$ 设置误差范围 $\to$ 选择优化算法 $\to$ 迭代优化至满足误差要求;
(5) 交叉熵用于计算估计值(预测值)和实际值的偏离程度,选择最优的分类.
(6) 逻辑回归优缺点

优点	缺点	建议
输入变量可连续可离散	只能发现变量间的线性关系	提前去除无关变量
模型简单直观,容易解释	输入变量间应相互独立	去除相关性较高的变量
不容易产生过拟合	/	离散化变量

(7) 正因为sigmoid(逻辑回归)只能发现变量间的线性关系,所以激活函数很少用,一般用Relu.

【参考文献】
[1]https://www.cnblogs.com/sparkwen/p/3441197.html
[2]https://wenku.baidu.com/view/771515f7f705cc17552709c9.html
[3]https://blog.csdn.net/jasonzzj/article/details/52017438