逻辑回归,凸函数

原文链接:https://www.jianshu.com/p/894bda167422

https://tech.meituan.com/2015/05/08/intro-to-logistic-regression.html

https://blog.csdn.net/Julialove102123/article/details/78405261

Nav logo写文章注册登录

×

logistic 回归(内附推导)

96 快乐的小飞熊 关注

2018.06.02 17:32* 字数 1399 阅读 1673评论 0喜欢 6


主要思考几个问题:


1、logistic回归的应用场景

  • Logistic回归是一种用于解决二分类问题的机器学习方法,是一种判别模型:表现为直接对条件概率P(y|x)建模,而不关心背后的数据分布P(x,y)

  • 用于估计某种事物的可能性。比如某用户购买某商品的可能性、某病人患有某种疾病的可能性、以及某广告被用户点击的可能性等。

注意:这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。

2、为什么损失函数不选MSE,而采用极大似然估计?

答:对于线性回归,我们会选择MSE, 因为其J(θ)是凸函数,但是对于logistic回归,由于进行了sigmoid非线性映射就是非凸函数,所以可能在寻优的时候容易陷入局部最优,所以考虑把sigmoid作log,得到的J(θ)为:

 

logistic损失函数.png

 

对其求二阶导,结果大于0,说明其是凸函数,在用梯度下降法寻优时,可以保证找到全局最小。

3、logistic回归和线性回归的关系是什么?

  • (1) 逻辑回归的条件分布y|x是伯努利分布,而线性回归的是高斯分布,因为逻辑回归的因变量是二元变量(0或1)
  • (2)逻辑回归是在线性回归的基础上,多一步sigmoid非线性映射。所以线性回归模型对异常值敏感,而逻辑回归通过非线性变换减弱分离平面较远的点的影响。
  • (3)逻辑回归和线性回归问题中,梯度下降算法的形式看上去是一致的(更新参数的规则看起来基本相同),但实际上两者是完全不同的,因为假设函数是不同的,需要特别注意这一点。

4、logistic回归为什么是线性模型?

很容易可以从sigmoid函数看出,当θTx>0 时,y=1,否则 y=0。θTx=0 是模型隐含的分类平面(在高维空间中,我们说是超平面),所以说logistic回归本质上是一个线性模型。

注意:这里需要区分假设函数和决策边界:

在逻辑回归中,假设函数(h=g(z))用于计算样本属于某类别的可能性;决策函数(h=1(g(z)>0.5))用于计算(给出)样本的类别;决策边界(θ^Tx=0)是一个方程,用于标识出分类函数(模型)的分类边界。

5、logistic回归的优点和缺点?

  • 优点:
    (1)模型相对简单并且可解释性非常好。
    (2)从特征的权重可以看到不同的特征对最后结果的影响,某个特征的权重值比较高,那么这个特征最后对结果的影响会比较大。
    (3)模型效果不错,在工程上是可以接受的(作为baseline),如果特征工程做的好,效果不会太差。
    (4)训练速度较快。分类的时候,计算量仅仅只和特征的数目相关。(5)逻辑回归可以很方便的得到最后的分类结果,因为输出的是每个样本的概率分数,我们可以很容易的对这些概率分数进行cutoff,也就是划分阈值。

  • 缺点:
    (1) 对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;

(2) 预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

(3) 很难处理数据不平衡的问题。举个例子:如果我们对于一个正负样本非常不平衡的问题,把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器,它对正负样本的区分能力不会很好。

(4) 逻辑回归本身无法筛选特征。有时候,我们会用gbdt来筛选特征,然后再上逻辑回归。

6、能不能推演到多分类?

  • 可以,用softmax回归(后面单独分解)

7、附:logistic回归的推导过程

推导1.png

 

推导2.png


参考:
https://www.cnblogs.com/sparkwen/p/3441197.html
https://tech.meituan.com/intro_to_logistic_regression.html
Andrew Ng, CS 229 logistic regression
https://www.cnblogs.com/ModifyRong/p/7739955.html(需研究)
https://blog.csdn.net/Mr_HHH/article/details/79433094

小礼物走一走,来简书关注我

赞赏支持

 机器学习算法

© 著作权归作者所有

举报文章

96关注快乐的小飞熊 

写了 31704 字,被 56 人关注,获得了 82 个喜欢

梦想还是要有的,万一实现了呢????

喜欢

 

6

   更多分享

Web note ad 1

  •  
  •  

240浅谈机器学习基础(上)

注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右的计划,其中很重要的一点是成为一名出色的人工智能产品经理,说是要每月至少读一本人工智能相关书籍,现在一个半月过去了,书读了一些,资料也看了不少,算是小有所成,所...

48

 我偏笑_NSNirvana机器学习算法小结与收割offer遇到的问题

机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间的区别还是很有必要的。可以帮助我们做一些模型选择。本篇博文就总结一下各种机器学习算法的特点和应用场景。本文是笔者结合自身面试中遇到的问题和总结网络上的资源得到的...

48

 在河之简240sklearn文档 — 1.1. 普通线性模型

原文章为scikit-learn中"用户指南"-->"监督学习的第一节:Generalized Linear Models"###### 下面是一组用在回归中的方法,其预期的结果为各输入变量的线性组合。在数学的概念里,如果** ý 表示我们预测出的结果: 1.1.1. 普通...

48

 HabileBadger240读书笔记 | 《机器学习》的算法总结 - AI产品经理需要知道的那些算法

-- 原创,未经授权,禁止转载 2017.11.06 -- 传送门:机器学习的基本概念(一):http://www.jianshu.com/p/10fc7e397a3e机器学习的基本概念(二):http://www.jianshu.com/p/b3edf9c9f2c8机器学...

48

 rui_liu240苦哈哈的跑步狗(62)

15.09.15周二,半马计划第5周第1课,公路夜跑。 耗时1h26m31s,距离10.16km。 总是有那么几天……唉,都懂得。真心累真心跑不动呐,心有余而力不足,苦哈哈的跑步狗哦。 真不知道自己这10km是如何开始如何结束的,纯机械的麻木的……权当是前天20Km后的排酸...

48

 吾子语240远方

 

48

 熊今飞240男人变心了,女人该怎么办?

丽子 在满地都是六便士的今天,你以为大家都很在意金钱;你以为关于“看到的月亮”只是一种假象;你以为某某的欢天酒地,铸就了他的“浪”;你以为某人的谨言慎行,就是温顺不逆反。 其实不然。 男人变心了,女人该怎么办? 爱情其实并没有那么伟大,在人性面前根本就是不堪一击。今天特想分...

48

 丽子a240生活不会白白给我们教训

1..出去玩掐点回去 这件事情放在第一位,是因为这种事情我做过很多次,每次都是血淋淋的教训,从高中开始到现在大学快毕业我都没能改掉这个习惯。 高中三年,大大小小的掐点事件多的数不胜数,最深刻得的一次是,由于自己过于贪玩耽误了时间,眼睁睁看着末班车开走,边跑边喊“等一下……”...

48

 子墨素鸢240你好,我叫徐瑾欢2

“瑾欢今天相亲怎么样啊?”徐瑾欢听出来啦电话那头给二舅打电话的是母亲。 “他说不是他喜欢的类型!”“那小子也不看看自己啥个形象,还不是他喜欢的类型!” 徐瑾欢伸伸舌头,心里嘀咕着“这是亲妈,有这么损自己儿子的吗,估摸着自己是充话费送的!” 晚饭吃罢,二舅他们出去散步,瑾欢自...

48

 徐慕青

查看原图

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值