统计学习方法——（第六章）二项与多项逻辑回归与最大熵模型详解与推导（下）

最新推荐文章于 2022-09-27 11:31:03 发布

我学数学我骄傲

最新推荐文章于 2022-09-27 11:31:03 发布

阅读量636

点赞数 1

分类专栏：算法笔记（蓝皮书，西瓜书，花书，CV）文章标签：机器学习神经网络深度学习

本文链接：https://blog.csdn.net/weixin_37799689/article/details/106431790

版权

算法笔记（蓝皮书，西瓜书，花书，CV）专栏收录该内容

28 篇文章 14 订阅

订阅专栏

一、知识回顾

二、逻辑回归（参考链接）

1、二项逻辑回归

1）原理

LR模型可以被认为就是一个被Sigmoid函数（logistic方程）所归一化后的线性回归模型！逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上，套用了一个逻辑函数，但也就由于这个逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。线性回归是逻辑斯蒂回归的基础，线性回归是真正的连续值的回归问题；逻辑回归得到的是概率值，解决的是分类问题。

2）基础—逻辑斯蒂分布

连续随机变量X服从逻辑斯蒂分布时，具有以下分布函数和概率密度函数（一般在讨论逻辑回归模型的时候采用最简单的形式，即参数都等于1）：

补充：为什么逻辑回归得到的是类别的概率？因为S型函数的决策边界

在LR模型中我们知道：当假设函数大于0.5，此时我们预测成正类；反之预测为负类。由图来看，我们可以得到更加清晰的认识。下图为Sigmoid函数，也是LR的外层函数。

决策边界并不是训练集的属性，而是假设本身和参数的属性。因为训练集不可以定义决策边界，它只负责拟合参数；而只有参数确定了，决策边界才得以确定。

3）模型（推导放在多项逻辑回归了）

（1）损失函数

（2）模型

补充：为什么逻辑回归使用交叉熵作为损失函数

因为LR的假设函数的外层函数是Sigmoid函数，Sigmoid函数是一个复杂的非线性函数，这就使得我们将逻辑回归的假设函数代入均方误差。这样的函数拥有多个局部极小值，这就会使得我们在使用梯度下降法求解函数最小值时，所得到的结果并非总是全局最小，而有更大的可能得到的是局部最小值。

4）求解推导（直接求导反正无约束）

5）正则化

（1）公式

使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。一般回归分析中回归w表示特征的系数，从上式可以看到正则化项是对系数做了处理（限制）。L1正则化和L2正则化的说明如下：

L1正则化是指权值向量w中各个元素的绝对值之和，一范式
L2正则化是指权值向量w中各个元素的平方和然后再求平方根，二范式

（2）效果

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

（3）L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。为什么要生成一个稀疏矩阵？

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可微的。机器学习的任务就是要通过一些方法（比如梯度下降）求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时，相当于对J0做了一个约束。考虑二维的情况，即只有两个权值w1和w2，此时L=|w1|+|w2|对于梯度下降法，求解J0的过程可以画出等值线，同时L1正则化的函数L也可以在w1、w2的二维平面上画出来。如下图：