机器学习之逻辑回归(手推公式版)

最新推荐文章于 2022-10-08 16:36:01 发布

夏小悠

最新推荐文章于 2022-10-08 16:36:01 发布

阅读量1.4k

点赞数 3

分类专栏：机器学习文章标签：人工智能机器学习 python 逻辑回归算法

本文链接：https://blog.csdn.net/qq_42730750/article/details/113917921

版权

机器学习专栏收录该内容

22 篇文章 26 订阅

订阅专栏

文章目录

前言

逻辑回归 $(L o g i s t i c$ $R e g r e s s i o n)$ 虽冠有“回归”之名，却并不是真正意义上的回归，它其实是统计学中经典的分类方法，主要解决的是二分类问题。

对于逻辑回归，书上说法不一，李航老师的《统计学习方法》将逻辑回归称为逻辑斯谛回归，周志华老师的西瓜书中将逻辑回归称为对数几率回归，简称对率回归，英文名亦称为Logit Regression。

1. Sigmoid函数

在线性回归这篇博客中我们介绍到线性回归模型 $z=\bm {w^Tx}+b$ 产生的预测值是一个实数值，对应的是连续型的变量，比如公司的股价、产品的销量等等。对于二分类问题，它的预测值是一个离散的变量，要么是0，要么是1，不会再由其他值。那么如何将线性回归模型的值变成离散的呢？这里就引入了一个连接函数 $(l i n k$ $f u n c t i o n)$ ------- $S i g m o i d$ 函数。
$S i g m o i d$ 函数是形似 $S$ 的函数，也称为 $L o g i s t i c$ 函数，表达式如下： $y=\frac {1} {1+e^{-z}}$ 根据下面的 $S i g m o i d$ 函数函数图像，我们可以看出，该函数的输入值为 $-\infty$ 到 $+\infty$ ，输出值为 $(0, 1)$ 。这样对于任意 $z=\bm {w^Tx}+b$ ，通过 $S i g m o i d$ 函数，我们都能得到0到1之间的概率值，也就实现了分类。

在这里插入图片描述

更为准确的说， $L o g i s t i c$ 函数是 $S i g m o i d$ 函数最重要的代表。

下面给出一些 $S i g m o i d$ 函数的相关性质及其证明：

在这里插入图片描述

纠正一下：把性质3里面的倒数符号 $\mathrm {d}$ 改成偏倒数符号 $\partial$

权值向量和输入向量依旧记作 $\bm w,\bm x$ ，这时，逻辑回归模型就是下面这样： $P(y=1|x)=\frac {e^{\bm {w^Tx}+b}} {1+e^{\bm {w^Tx}+b}} \\ P(y=0|x)=\frac {1} {1+e^{\bm {w^Tx}+b}}$ 对于给定的输入实例 $x$ ，按照上述模型可以求得 $P (y = 1 ∣ x)$ 和 $P (y = 0 ∣ x)$ ，通过比较两个条件概率值的大小，将实例 $x$ 分到概率值较大的那一类。
一个事件的几率 $(o d d s)$ 是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 $p$ ，那么该事件的几率是 $\frac {p} {1-p}$ ，该事件的对数几率 $(l o g o d d s)$ 或 $l o g i t$ 函数是 $logit(p)=\ln \frac {p} {1-p}$ 对逻辑回归而言，上式又可以写成如下形式： $\ln \frac {P(y=1|x)} {1-P(y=1|x)}=\bm {w^Tx}+b$ 也就是说，在逻辑回归模型中，输出 $y = 1$ 的对数几率是输入 $x$ 的线性函数，或者说，输出 $y = 1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，即逻辑回归模型。

对几率取对数，即对数几率。

2. 模型参数估计

根据上述可知，在逻辑回归模型中，需要求解的参数是 $\bm w$ 和 $b$ ，我们可以通过极大似然估计法来估计模型参数。
对于给定的数据集 $T=\{(x_1,y_1),(x_1,y_1)，\dots,(x_N,y_N)\}$ ，其中， $x_i \in \mathbb {R},y_i \in \{0,1\}$ ，设 $\\[3pt] P(y=0|x)=1-p(x)$ ，则似然函数为：
$L(\bm w)=\prod_{i=1}^N[p(x_i)]^{y_i}[1-p(x_i)]^{1-y_i}$ $L(\bm w)$ 是乘积形式，可将似然函数先取对数，转为对数似然函数：

在这里插入图片描述

这样，问题就变成了以 $E(\bm w)$ 为目标函数的最优化问题，似然函数 $L(\bm w)$ 最大化转换成了损失函数 $E(\bm w)$ 的最小化，然后就可以利用梯度下降法或牛顿法来求其最优解了。此时的 $E(\bm w)$ 称为交叉熵 $(c r o s s - e n t r o p y)$ 损失函数，没错，交叉熵损失函数其实就是对似然函数先取对数再取相反数得到的。

3. 模型参数求解

先求出损失函数 $E(\bm w)$ 对 $\bm w$ 一阶偏导数和二阶偏导数：

在这里插入图片描述

3.1 梯度下降法求解

梯度下降法要求目标函数 $E(\bm w)$ 是一个具有一阶连续偏导数的函数，大致求解过程为：先取适当的初值 $\bm w^{(0)}$ ，不断迭代，更新 $\bm w$ 的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 $\bm w$ 的值，从而达到减少函数值的目的。
设 $\bm g_k$ 为 $E(\bm w)$ 在 $\bm w^{(k)}$ 的梯度， $\bm g_k=\frac {\partial E(\bm w)} {\partial \bm w}$ 则第 $k + 1$ 次迭代值 $\bm w^{k+1}$ 为： $\bm w^{k+1}=\bm w^{k}+\lambda (-\bm g_k)$ 当 $||\bm g_k||<\epsilon$ 时，迭代结束，得到近似解 $\bm w^*=\bm w^{k}$ 。
当 $||E(\bm w^{k+1})-E(\bm w^{k})||<\epsilon$ 或 $||\bm w^{k+1}-\bm w^{k}||<\epsilon$ 时，迭代结束,得到近似解 $\bm w^*=\bm w^{k+1}$ 。

3.2 牛顿法求解

牛顿法要求目标函数 $E(\bm w)$ 是一个具有二阶连续偏导数的函数，求解过程和梯度下降法差不多，这里面引入了一个矩阵 $H$ ，称为黑塞矩阵 $(H e s s i a n$ $m a t r i x)$ 。
设 $\bm g_k$ 为 $E(\bm w)$ 在 $\bm w^{(k)}$ 的梯度， $\bm g_k=\frac {\partial E(\bm w)} {\partial \bm w}$ $H_k$ 为为 $E(\bm w)$ 在 $\bm w^{(k)}$ 的黑塞矩阵， $H_k=\frac {\partial^2 E(\bm w)} {\partial \bm w \partial \bm w^T}$ 则第 $k + 1$ 次迭代值 $\bm w^{k+1}$ 为： $\bm w^{k+1}=\bm w^{k}-H_k^{-1}\bm g_k$ 当 $||\bm g_k||<\epsilon$ 时，迭代结束，得到近似解 $\bm w^*=\bm w^{k}$ 。
当 $||E(\bm w^{k+1})-E(\bm w^{k})||<\epsilon$ 或 $||\bm w^{k+1}-\bm w^{k}||<\epsilon$ 时，迭代结束,得到近似解 $\bm w^*=\bm w^{k+1}$ 。

4. 正则化

正则化是用来防止模型过拟合的一种策略，在损失函数的基础之上加上一个正则化项 $(r e g u l a r i z e r)$ 或惩罚项 $(p e n a l t y$ $t e r m)$ ，损失函数改变，基于损失函数的最优化来求解的参数取值必然改变，以此来调节模型拟合的程度。
常用的有 $L 1$ 正则化和 $L 2$ 正则化两种选项，其中， $L 1$ 范数表现为参数向量中的每个参数的绝对值之和， $L 2$ 范数表现为参数向量中的每个参数的平方和然后再求平方根。
即 $||\bm w||_1=|w_1|+|w_2|+\dots+|w_N| \\[3pt] ||\bm w||_2=\sqrt {|w_1|^2+|w_2|^2+\dots+|w_N|^2}$ $E(\bm w)_{L1}=E(\bm w)+\lambda||\bm w||_1 \\[3pt] E(\bm w)_{L2}=E(\bm w)+\frac {\lambda} {2} ||\bm w||_2^2$ 上述这种形式在书中很常见，通过控制正则项来调整损失函数。
$E(\bm w)_{L1}=C*E(\bm w)+\lambda||\bm w||_1 \\[3pt] E(\bm w)_{L2}=C*E(\bm w)+\frac {\lambda} {2} ||\bm w||_2^2$ 上述这种形式是 $s k l e a r n$ 正则化形式，通过控制损失函数前的系数 $C$ 直接调整损失函数。

可能有些小伙伴们会有个疑问：为啥上述的正则化中 $L_2$ 范式要带个平方？这是因为啊 $L_2$ 范式是先求平方和再开根号，带个平方是为了省去开根号的操作，简化运算，哈哈哈哈。

5. 模型实现

这里使用sklearn.linear_model里的LogisticRegression进行逻辑回归建模来解决分类问题，数据集为sklearn自带的乳腺癌数据集breast_cancer，数据集详情大致如下：

在这里插入图片描述

该数据集有30个特征，2个类别，详情可打印irisdata.DESCR

	from sklearn.linear_model import LogisticRegression
	from sklearn.datasets import load_breast_cancer
	from sklearn.model_selection import train_test_split
	from sklearn.metrics import accuracy_score
	import numpy as np
	import matplotlib.pyplot as plt
	
	
	breast = load_breast_cancer()
	
	# penalty: 正则化选项, 默认L2
	# C: 控制系数, 默认1.0
	# solver: 求解最优模型参数的方法, 默认liblinear, 用于小数据集或简单二分类
	# 大数据集可以选择SAG或SAGA
	# max_iter: 最大迭代次数
	model1 = LogisticRegression(penalty='l1', C=0.5, solver='liblinear', max_iter=1000)
	model2 = LogisticRegression(penalty='l2', C=0.5, solver='liblinear', max_iter=1000)
	model1.fit(breast.data, breast.target)
	model2.fit(breast.data, breast.target)
	
	print('model1: ', model1.coef_)
	print('model2: ', model2.coef_)

在这里插入图片描述
由上也可以看出， $L 1$ 正则化越强，参数向量中就含有越多为0的参数，参数就越稀疏，选出来的特征就越少，以此来防止过拟合。相对的， $L 2$ 正则化在加强的过程中，会尽量让每个特征对模型都有一些小的贡献，但携带信息少，对模型贡献不大的特征的参数会非常接近于0。
下面对比一下系数 $C$ 对 $L 1$ 正则化和 $L 2$ 正则化的影响：

	x_train, x_test, y_train, y_test = train_test_split(breast.data, breast.target,test_size=0.3,random_state=128)
	
	l1 = []
	l2 = []
	l1_test = []
	l2_test = []
	
	for i in np.linspace(0.05, 1.0, 20):
	    model1 = LogisticRegression(penalty='l1', C=i, solver='liblinear', max_iter=1000)
	    model2 = LogisticRegression(penalty='l2', C=i, solver='liblinear', max_iter=1000)
	
	    model1.fit(breast.data, breast.target)
	    model2.fit(breast.data, breast.target)
	
	    l1.append(accuracy_score(y_true=y_train, y_pred=model1.predict(x_train)))
	    l2.append(accuracy_score(y_true=y_train, y_pred=model2.predict(x_train)))
	    l1_test.append(accuracy_score(y_true=y_test, y_pred=model1.predict(x_test)))
	    l2_test.append(accuracy_score(y_true=y_test, y_pred=model2.predict(x_test)))
	
	plt.figure(figsize=(6, 6))
	plt.plot(np.linspace(0.05, 1.0, 20), l1, c="green", label='L1')
	plt.plot(np.linspace(0.05, 1.0, 20), l2, c="blue", label='L2')
	plt.plot(np.linspace(0.05, 1.0, 20), l1_test, c="red", label='L1_test')
	plt.plot(np.linspace(0.05, 1.0, 20), l2_test, c="gray", label='L2_test')
	
	plt.legend(loc='lower right')
	plt.show()