DataWhale基础算法梳理-2.逻辑回归

【学习任务】

  1. Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?

  2. Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?

  3. 为什么不用线性回归做分类?

  4. Logistic回归为什么不像线性回归那样用平方损失函数?

  5. Logistic回归的参数为什么不像线性回归那样直接公式求解?

  6. Logistic回归与线性回归有哪些联系?

1.过程想清楚再补在这里。

2.Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?

牛顿法:

牛顿法的核心思想是”利用函数在当前点的一阶导数,以及二阶导数,寻找搜寻方向“(回想一下更简单的梯度下降法,她只用了当前点一阶导数信息决定搜索方向)。

牛顿法的迭代公式是(稍微有修改,最原始的牛顿法γ=1:

                                                      

其中,是线搜索方向。这个方向的含义是什么呢。有两种物理解释:

  1. 一阶导数∇f(x)当前搜寻点 与 ∇f(x)=0连线的方向。

  2. 当前点泰勒展开(舍弃二阶以上项)函数中 当前搜寻点 与 泰勒展开函数极小值连线方向。

拟牛顿法:

上述的牛顿法需要计算Hessian矩阵的逆矩阵,运算复杂度太高。在动辄百亿、千亿量级特征的大数据时代,模型训练耗时太久。因此,很多牛顿算法的变形出现了,这类变形统称拟牛顿算法。拟牛顿算法的核心思想用一个近似矩阵B替代逆Hessian矩阵H^-1。不同算法的矩阵B的计算有差异,但大多算法都是采用迭代更新的思想在trainning的每一轮更新矩阵B。

 

3.为什么不用线性回归做分类?

为什么不用线性回归模型,而是使用逻辑斯蒂回归模型,是因为线性回归用于二分类时,会出现这样的问题:如判定一封邮件是否为垃圾邮件,我们需要通过分类器预测分类结果:是(记为1)or不是(记为0)。如果我们考虑0就是“不发生”,1就是“发生”,那么我们可以将分类任务理解成估计事件发生的概率为P,通过事件发生概率的大小来达到分类目的。

这存在的问题是:
(1)等式两边的取值范围不同,右边是负无穷到正无穷,左边是[0,1],显然这样的分类模型存在着问题
(2)实际中的很多问题,都是当x很小或是很大时,对于因变量P的影响很小,当x达到中间某个阈值时,影响很大。我们拿买车的例子来看,当一个人从没有钱到有钱,他买车的概率就会上升,等有钱到一定程度之后,随着挣钱的增加,他买车的概率应该就不会再增加了。即实际中很多问题,概率P与自变量并不是直线关系。

4.Logistic回归为什么不像线性回归那样用平方损失函数?

最小二乘法只是让预测值和观测值更拟合,相比而言,最大似然估计是保证计算出的特征值发生的概率正确率最大化,最大似然更满足逻辑回归是一种分类器。

5.Logistic回归的参数为什么不像线性回归那样直接公式求解?

因为逻辑回归是分类模型,线性回归是回归模型。(说的太简单了,后面再补)。

6.Logistic回归与线性回归有哪些联系?

区别:

线性回归使用的是最小化平方误差损失函数,逻辑回归使用对数似然函数进行参数估计

线性回归用来预测,逻辑回归用来分类。

线性回归是拟合函数,逻辑回归是预测函数

最大的区别就在于他们的因变量不同。

联系:

线性回归和逻辑回归都属于广义线性模型,可以认为逻辑回归的输入是线性回归的输出,将逻辑斯蒂函数(Sigmoid曲线)作用于线性回归的输出得到输出结果

参考资料:

1.【原创】牛顿法和拟牛顿法 -- BFGS, L-BFGS, OWL-QN

2. 逻辑回归二分类总结(不断迭代,直到彻底掌握)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值