机器学习 李宏毅 L11-Logistic回归

logistic regression概述

1. 函数集合(模型)

对于二元分类,我们定义了logistic regression,其中当输出值大于0.5,则归为第一类,否则归为第二类。其中对于每一类的概率模型如以下公式所示,这是简单的神经元形式。

fw,b(x)=Pw,b(C1|x)=σ(z)σ(z)=11+exp(z)z=iwixi+b f w , b ( x ) = P w , b ( C 1 | x ) = σ ( z ) σ ( z ) = 1 1 + e x p ( − z ) z = ∑ i w i x i + b

2. The goodness of the function

如下图所示, L(w,b) L ( w , b ) 为针对特定的w和b,可以产生最大的概率的函数,也就是目标函数,以下需要将该目标函数最大化,实现最大似然函数, w,b=argminw,bL(w,b) w ∗ , b ∗ = a r g min w , b L ( w , b )

ML-LHY-L1-1.PNG

对于上述优化函数进行对数化,这里需要将第一类输出值记为1,第二类输出值记为0,则最终可以得到交叉熵的综合:

L(f)=nC(f(xn),y^n)=n{[y^nlnf(xn)+(1y^n)ln(1f(xn))]} L ( f ) = ∑ n C ( f ( x n ) , y ^ n ) = ∑ n { − [ y ^ n ln ⁡ f ( x n ) + ( 1 − y ^ n ) ln ⁡ ( 1 − f ( x n ) ) ] }

实际上,对于logistic regression和linear regression,其区别如下图所示。可以看出如果从输入特征符合高斯分布的角度而言,可以得到的是logistic regression,这在上一讲有所阐述;而linear regression是相对简单的回归模型。其误差函数,linear regression追求的是最小误差,而logistic regression追求的是最大似然概率,因此二者的目标函数也不一样。

ML-LHY-L1-1.PNG

3. Find the best function

对于目标函数对于参数变量求取偏微分,最终可以求解得到目标函数的梯度,可以用来进行梯度下降操作。

ML-LHY-L1-1.PNG

为何不使用最小误差函数作为优化的目标函数

由于logstic regression的函数特性,可以发现一些违反了参数更新的策略,如下图所示。对于函数微分情况,可以看到,但输入一组特征,输出概率为0,即分类完全错误的情况,此次微分结果等于0,此时并不会更新,这与实际情况矛盾。交叉熵和平方误差的比较也包含在以下图中,可以看出交叉熵距离目标较远,则更新较快;而平方误差则不会出现这种较好的属性。具体可以见参考文献1。

ML-LHY-L1-1.PNG

ML-LHY-L1-1.PNG

Discriminative vs Generative

Discriminative方法直接找出模型中的参数变量。虽然两者的模型是一样的,但是二者的前提假设并不相同,所以最终找到的最佳函数也不一致。而在部分文档中,给出的结论是,discriminative model的表现往往比generative model表现较好。视频里面还给了一个特殊的例子,表现了naive bayes进行分类的错误。(这是由于naive bayes的一个前提,各特征之间是独立的,给出的数据量太小)

Usually people believe discriminative model is better

Benefit of generative model

1) With the assumption of probability distribution, less training data is needed, more robust to the noise
2) Priors and class-dependent probabilities can be estimated from different sources.

多分类问题

对于多个类别,每个类别均有一组w,b,然后可以得到如下的输出情况z1,z2等等,接下来通过softmax函数进行处理,如下图所示。sotfmax函数同样可以通过 独立高斯分布情况下,多分类情况得到。

ML-LHY-L1-1.PNG

得到了softmax之后的预测y,同样可以采用交叉熵,得到需要优化的函数。注意,标签中会存在对0求对数,这是不存在的,因此这里需要注意一下。


此处对于多分类问题没有进行推导证明,需要自行查找资料。

logistic regression的限制

logistic regression还是部分依赖于回归(其标准还是一个直线,直线将待分类数据进行分开;然后对于该输出值进行sigmoid处理,得到分类的概率;总体而言,对于直线的一边归为一类,另外一边归为另外一类),因此对于跳动较大的分类问题,其解并不好,例如对于异或问题,该方法并不适用。实际上,可以进行feature transformation进行处理(映射)
对于Logistic regression的缺陷,可以通过feature transformation进行映射处理,这实际上也对应了多层的Logistic regression,则对应于神经网络。

ML-LHY-L1-1.PNG

可参考资料和网址

  1. 交叉熵与平方误差的区别
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值