第四课.判别式模型

线性回归到线性分类

线性回归: y = w T x + b y=w^{T}x+b y=wTx+b,得到结果是一个属于 ( − ∞ , + ∞ ) (-\infty,+\infty) (,+)的实数,线性分类问题则需要映射 w T x + b w^{T}x+b wTx+b到类别的编码上,分类问题有硬分类和软分类两种情况,假设有一个二分类问题:

  • 硬分类,映射结果是二值集合{ 0 , 1 0,1 0,1}中的值;
  • 软分类,映射结果是 [ 0 , 1 ] [0,1] [0,1]区间上的值,相比硬分类,软分类取到的是概率值,哪个类别的概率大,就认为是哪一类;

软分类的线性分类模型一般有三种:逻辑回归,高斯判别分析,朴素贝叶斯分类器;

软分类模型又可以分为判别式模型和生成式模型,逻辑回归属于判别式模型,直接对条件概率 p ( Y ∣ X ) p(Y|X) p(YX)建模;高斯判别分析和朴素贝叶斯是生成式模型,对联合概率 p ( X , Y ) p(X,Y) p(X,Y)进行建模;

逻辑回归建模

以二分类问题为例,在逻辑回归中,所关注的是给定一个样本 x x x,计算 p ( y = 1 ∣ x ) p(y=1|x) p(y=1x)的概率,通常会利用sigmoid函数对 w T x w^{T}x wTx进行非线性映射,映射到 [ 0 , 1 ] [0,1] [0,1]之间的概率值;

逻辑回归的二分类条件概率表达式为:
p 1 = p ( y = 1 ∣ x ) = σ ( w T x ) = 1 1 + e − w T x = φ ( x , w ) p_{1}=p(y=1|x)=\sigma(w^{T}x)=\frac{1}{1+e^{-w^{T}x}}=\varphi(x,w) p1=p(y=1x)=σ(wTx)=1+ewTx1=φ(x,w)
p 0 = p ( y = 0 ∣ x ) = 1 − p ( y = 1 ∣ x ) = 1 − σ ( w T x ) = e − w T x 1 + e − w T x = 1 − φ ( x , w ) p_{0}=p(y=0|x)=1-p(y=1|x)=1-\sigma(w^{T}x)=\frac{e^{-w^{T}x}}{1+e^{-w^{T}x}}=1-\varphi(x,w) p0=p(y=0x)=1p(y=1x)=1σ(wTx)=1+ewTxewTx=1φ(x,w)
综合起来,把两个分类的条件概率统一到一个表达式中:
p ( y ∣ x ) = p 1 y p 0 1 − y p(y|x)=p_{1}^{y}p_{0}^{1-y} p(yx)=p1yp01y
这就是对条件概率进行建模,带估计参数即向量 w w w

逻辑回归参数估计

面对样本数量为 N N N的数据集 ( X , Y ) (X,Y) (X,Y),先通过极大似然估计的思路求解 w w w
w m l e = a r g m a x w l o g ( p ( Y ∣ X ) ) = a r g m a x w l o g ∏ i = 1 N p ( y i ∣ x i ) = a r g m a x w ∑ i = 1 N l o g ( p ( y i ∣ x i ) ) w_{mle}=argmax_{w}log(p(Y|X))=argmax_{w}log\prod_{i=1}^{N}p(y_{i}|x_{i})=argmax_{w}\sum_{i=1}^{N}log(p(y_{i}|x_{i})) wmle=argmaxwlog(p(YX))=argmaxwlogi=1Np(yixi)=argmaxwi=1Nlog(p(yixi))
即:
w m l e = a r g m a x w ∑ i = 1 N ( y i l o g p 1 + ( 1 − y i ) l o g p 0 ) = a r g m a x w ∑ i = 1 N ( y i l o g ( φ ( x , w ) ) + ( 1 − y i ) l o g ( 1 − φ ( x , w ) ) ) w_{mle}=argmax_{w}\sum_{i=1}^{N}(y_{i}logp_{1}+(1-y_{i})logp_{0})=argmax_{w}\sum_{i=1}^{N}(y_{i}log(\varphi(x,w))+(1-y_{i})log(1-\varphi(x,w))) wmle=argmaxwi=1N(yilogp1+(1yi)logp0)=argmaxwi=1N(yilog(φ(x,w))+(1yi)log(1φ(x,w)))
至此,得到逻辑回归的目标:
w m l e = a r g m i n w [ − ∑ i = 1 N ( y i l o g ( φ ( x , w ) ) + ( 1 − y i ) l o g ( 1 − φ ( x , w ) ) ) ] w_{mle}=argmin_{w}[-\sum_{i=1}^{N}(y_{i}log(\varphi(x,w))+(1-y_{i})log(1-\varphi(x,w)))] wmle=argminw[i=1N(yilog(φ(x,w))+(1yi)log(1φ(x,w)))]
一般来说,对于该目标,采用梯度下降逐步逼近 w w w的局部最优值。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值