【学习任务】
-
Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?
-
Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?
-
为什么不用线性回归做分类?
-
Logistic回归为什么不像线性回归那样用平方损失函数?
-
Logistic回归的参数为什么不像线性回归那样直接公式求解?
-
Logistic回归与线性回归有哪些联系?
1.过程想清楚再补在这里。
2.Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?
牛顿法:
牛顿法的核心思想是”利用函数在当前点的一阶导数,以及二阶导数,寻找搜寻方向“(回想一下更简单的梯度下降法,她只用了当前点一阶导数信息决定搜索方向)。
牛顿法的迭代公式是(稍微有修改,最原始的牛顿法γ=1:
其中,是线搜索方向。这个方向的含义是什么呢。有两种物理解释:
1. 一阶导数∇f(x)当前搜寻点 与 ∇f(x)=0连线的方向。
2. 当前点泰勒展开(舍弃二阶以上项)函数中 当前搜寻点 与 泰勒展开函数极小值连线方向。
拟牛顿法:
上述的牛顿法需要计算Hessian矩阵的逆矩阵,运算复杂度太高。在动辄百亿、千亿量级特征的大数据时代,模型训练耗时太久。因此,很多牛顿算法的变形出现了,这类变形统称拟牛顿算法。拟牛顿算法的核心思想用一个近似矩阵B替代逆Hessian矩阵H^-1。不同算法的矩阵B的计算有差异,但大多算法都是采用迭代更新的思想在trainning的每一轮更新矩阵B。
3.为什么不用线性回归做分类?
为什么不用线性回归模型,而是使用逻辑斯蒂回归模型,是因为线性回归用于二分类时,会出现这样的问题:如判定一封邮件是否为垃圾邮件,我们需要通过分类器预测分类结果:是(记为1)or不是(记为0)。如果我们考虑0就是“不发生”,1就是“发生”,那么我们可以将分类任务理解成估计事件发生的概率为P,通过事件发生概率的大小来达到分类目的。
这存在的问题是:
(1)等式两边的取值范围不同,右边是负无穷到正无穷,左边是[0,1],显然这样的分类模型存在着问题
(2)实际中的很多问题,都是当x很小或是很大时,对于因变量P的影响很小,当x达到中间某个阈值时,影响很大。我们拿买车的例子来看,当一个人从没有钱到有钱,他买车的概率就会上升,等有钱到一定程度之后,随着挣钱的增加,他买车的概率应该就不会再增加了。即实际中很多问题,概率P与自变量并不是直线关系。
4.Logistic回归为什么不像线性回归那样用平方损失函数?
最小二乘法只是让预测值和观测值更拟合,相比而言,最大似然估计是保证计算出的特征值发生的概率正确率最大化,最大似然更满足逻辑回归是一种分类器。
5.Logistic回归的参数为什么不像线性回归那样直接公式求解?
因为逻辑回归是分类模型,线性回归是回归模型。(说的太简单了,后面再补)。
6.Logistic回归与线性回归有哪些联系?
区别:
线性回归使用的是最小化平方误差损失函数,逻辑回归使用对数似然函数进行参数估计
线性回归用来预测,逻辑回归用来分类。
线性回归是拟合函数,逻辑回归是预测函数
最大的区别就在于他们的因变量不同。
联系:
线性回归和逻辑回归都属于广义线性模型,可以认为逻辑回归的输入是线性回归的输出,将逻辑斯蒂函数(Sigmoid曲线)作用于线性回归的输出得到输出结果