统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(下)

一、知识回顾

二、逻辑回归(参考链接

1、二项逻辑回归

1)原理

LR模型可以被认为就是一个被Sigmoid函数(logistic方程)所归一化后的线性回归模型!逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。线性回归是逻辑斯蒂回归的基础,线性回归是真正的连续值的回归问题;逻辑回归得到的是概率值,解决的是分类问题。

2)基础—逻辑斯蒂分布

连续随机变量X服从逻辑斯蒂分布时,具有以下分布函数和概率密度函数(一般在讨论逻辑回归模型的时候采用最简单的形式,即参数都等于1):

补充:为什么逻辑回归得到的是类别的概率?因为S型函数的决策边界

在LR模型中我们知道:当假设函数大于0.5,此时我们预测成正类;反之预测为负类。由图来看,我们可以得到更加清晰的认识。下图为Sigmoid函数,也是LR的外层函数

                                                    

决策边界并不是训练集的属性,而是假设本身和参数的属性。因为训练集不可以定义决策边界,它只负责拟合参数;而只有参数确定了,决策边界才得以确定。

3)模型(推导放在多项逻辑回归了)

(1)损失函数

                                       

(2)模型

补充:为什么逻辑回归使用交叉熵作为损失函数

因为LR的假设函数的外层函数是Sigmoid函数,Sigmoid函数是一个复杂的非线性函数,这就使得我们将逻辑回归的假设函数代入均方误差。这样的函数拥有多个局部极小值,这就会使得我们在使用梯度下降法求解函数最小值时,所得到的结果并非总是全局最小,而有更大的可能得到的是局部最小值

 4)求解推导(直接求导反正无约束)

5)正则化 

(1)公式

使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。一般回归分析中回归w表示特征的系数,从上式可以看到正则化项是对系数做了处理(限制)。L1正则化和L2正则化的说明如下:

  • L1正则化是指权值向量w中各个元素的绝对值之和,一范式
  • L2正则化是指权值向量w中各个元素的平方和然后再求平方根,二范式

(2)效果

  • L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
  • L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合

(3)L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。为什么要生成一个稀疏矩阵?

稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(因为它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响),此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。考虑二维的情况,即只有两个权值w1和w2,此时L=|w1|+|w2|对于梯度下降法,求解J0的过程可以画出等值线,同时L1正则化的函数L也可以在w1、w2的二维平面上画出来。如下图:

(4)L2为什么不产生稀疏解

二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。

(5)那为什么L2正则化可以获得值很小的参数?

原因是在迭代算法中,如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子。 其中λ就是正则化参数。从下式可以看到,与未添加L2正则化的迭代公式相比,每一次迭代,θj都要先乘以一个小于1的因子,从而使得θj不断减小,因此总得来看,θ是不断减小的。

2、多项逻辑回归 

1)概念

多项逻辑斯蒂回归模型(multi-nominal logistic regression model),又称为Softmax Regression,是一个用来预测离散型随机变量的不同可能结果的概率的模型,用于进行多项分类。

2)模型

3)推导 

(1)似然函数

在已知参数w和数据x的情况下,预测值y为类别k的条件概率。同时,在已知现有数据的条件下,w是真正参数的概率,以数据出现的概率最大为前提(见本人博客最大似然估计),构造似然函数:

由于乘法难解,通过对数可以将乘法转换为加法,简化计算。对数似然函数为:

(2)损失函数(由上得) 

(3)参数求解(推导)

因为是无约束优化,因此直接求梯度:

 使用梯度下降算法,对梯度进行更新

4)神经网络中的softmax,本身不难直接上个图就明白了

                

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值