机器学习—分类模型

本文介绍了Logistic回归,一种常用的分类模型。从Logistic分布到Logistic回归模型的构建,包括最大后验估计、损失函数、正则化以及优化方法如梯度下降和牛顿法。Logistic回归在广告计算和推荐系统中广泛应用,是理解深度学习的基础。
摘要由CSDN通过智能技术生成

第二章 分类模型

给定训练数据D={\left \{ x_i,y_i\right \}}^N_i

分类任务学习一个输入x到输出y的映射f:

\hat{y} = f(x)=argmaxp(y=c|x,D)//最大后验估计

其中,y为离散值,其值范围为标签空间:Y=\left \{ 1,2,...,C \right \}

当C=2时,为两类分类问题

贝叶斯公式        先验概率                             p(y=c)//根据以往的经验和分析得到的概率

                            类条件概率                         p(x|y=c)

                            后验概率                             p(y=c|x)//事情已经发生,由某个因素引起的可能性的大小      

2.1 Logistic回归

Logistic回归是一个用在分类任务的线性分类器。Logistic回归也是(深度)神经网络的基础,可以看做是只包含输入层和输出层的两层网络。我们从经验风险最小、正则、优化、模型评估和模型选择等方面进行讨论。

LR回归是一个分类算法。在机器学习分类算法中,LR回归是其中最常用的一个。

LR回归是在线性回归模型的基础上,使用sigmoid函数(logistic分布的累积分布函数),将线性模型w^Tx的输出压缩到[0,1]之间,使其能表示概率。LR本质仍然是一个线性模型,实现相对简单。在广告计算和推荐系统中使用频率极高,是点击率(CTR)预估模型的基本算法。LR模型也是深度学习的基本组成单元(两层网络就是LR)

LR回归属于概率性判别式模型。之所以是概率性模型,是因为LR模型是有概率意义的(LR可以得到后验概率p(y|x);而非概率模型如SVM,模型本身并没有概率意义);之所以是判别式模型,是因为LR回归并没有对数据的分布p(x,y)进行建模,也就是说LR模型并不知道数据的具体分布,而是直接将判别函数(后验概率),或者说是分类超平面求解出来。


注:判别式模型 VS. 产生式模型

有些分类算法通过求解p(y=c|x)实现分类,即对于一个新的样本x,计算其条件概率p(y=c|x),即后验概率

后验概率可以可以基于贝叶斯公式得到

p(y=c|x)=\frac{p(y=c)p(x|y=c)}{\sum_{c^{'}=1}^{C}p(y=c^{'})p(x|y=c^{'})}

其中p(x|y=c)是类条件概率密度,p(y=c)是类的先验概率。若采用这种方法的模型,称为是产生式模型。之所以被称为产生式模型,是因为在产生式模型中有p(x|y=c)和p(y=c),可得到数据的分布p(x,y=c)=p(y=c)p(x|y=c),从而可以从分布中产生数据p(x,y=c)(如随机采样)

分类算法也可以直接对后验概率进行建模,如LR模型中我们假设p(y=1|x)=\sigma (w^Tx),而无需知道类先验概率和类条件概率。若采用这种方法的模型,称为判别式模型。

因为有了后验概率后,分类算法可以根据最大后验概率,将输入空间划分成许多不相交的区域,这些区域之间的分隔面被称为判别函数(也称为分类面),有了判别函数,就可以进行分类。

判别式模型直接对后验概率进行建模,从而得到判别函数。产生式模型,最终也是为了得到判别函数。还有一些模型(如SVM),直接对判别函数进行求解,得到判别面,也被称为判别式法。


2.1.1Logistic分布

LR回归是在线性回归模型的基础上,再用sigmoid函数得到概率。这里就先介绍一下sigmoid函数

首先,需要对logistic分布进行说明,这个分布的概率密度函数(pdf)为:

p(x;u,s)=\frac{e^{-(x-u)/s}}{s(1+e^{-(x-u)/s})}

累积分布函数(CDF)为:

F(x;u,s)=\frac{1}{e^{-(x-u)/s}}

其中u表示位置参数,s是形状参数

下图为不同的u和s的情况下,Logistic分布的概率密度函数的图形:

                                                                                    Logistic分布的概率密度函数

下图为不同的u和s的情况下,Logistic分布的累积分布函数的图形:

                                                                                    Logistic分布的累积概率函数

由图可以看出,Logistic分布的形状与正态分布的形状相似。但是Logistic分布的尾部更长。Logistic分布的概率分布函数的图形是一条S形曲线,在中心附近增长速度较快,而在两端的增长速度相比较慢。该曲线以点(u,1/2)位中心对称,即满足F(-x+u)-\frac{1}{2}=F(x+u)+\frac{1}{2}

当u=0,s=1时,Logistic分布的概率函数就是我们常说的sigmoid函数:

\sigma(a) = \frac{1}{1+e^{-a}}

且其导数为:

  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值