机器学习—分类模型

最新推荐文章于 2024-06-29 12:15:00 发布

qq_389825161

最新推荐文章于 2024-06-29 12:15:00 发布

阅读量1.6w

点赞数 5

本文链接：https://blog.csdn.net/qq_27344959/article/details/82824401

版权

本文介绍了Logistic回归，一种常用的分类模型。从Logistic分布到Logistic回归模型的构建，包括最大后验估计、损失函数、正则化以及优化方法如梯度下降和牛顿法。Logistic回归在广告计算和推荐系统中广泛应用，是理解深度学习的基础。

摘要由CSDN通过智能技术生成

第二章分类模型

给定训练数据 $D={\left \{ x_i,y_i\right \}}^N_i$

分类任务学习一个输入x到输出y的映射f：

$\hat{y} = f(x)=argmaxp(y=c|x,D)$ //最大后验估计

其中，y为离散值，其值范围为标签空间： $Y=\left \{ 1,2,...,C \right \}$

当C=2时，为两类分类问题

贝叶斯公式先验概率 p(y=c)//根据以往的经验和分析得到的概率

类条件概率 p(x|y=c)

后验概率 p(y=c|x)//事情已经发生，由某个因素引起的可能性的大小

2.1 Logistic回归

Logistic回归是一个用在分类任务的线性分类器。Logistic回归也是（深度）神经网络的基础，可以看做是只包含输入层和输出层的两层网络。我们从经验风险最小、正则、优化、模型评估和模型选择等方面进行讨论。

LR回归是一个分类算法。在机器学习分类算法中，LR回归是其中最常用的一个。

LR回归是在线性回归模型的基础上，使用sigmoid函数（logistic分布的累积分布函数），将线性模型 w^Tx 的输出压缩到[0,1]之间，使其能表示概率。LR本质仍然是一个线性模型，实现相对简单。在广告计算和推荐系统中使用频率极高，是点击率（CTR)预估模型的基本算法。LR模型也是深度学习的基本组成单元（两层网络就是LR）

LR回归属于概率性判别式模型。之所以是概率性模型，是因为LR模型是有概率意义的（LR可以得到后验概率p(y|x)；而非概率模型如SVM，模型本身并没有概率意义）；之所以是判别式模型，是因为LR回归并没有对数据的分布p(x,y)进行建模，也就是说LR模型并不知道数据的具体分布，而是直接将判别函数（后验概率），或者说是分类超平面求解出来。

注：判别式模型 VS. 产生式模型

有些分类算法通过求解p(y=c|x)实现分类，即对于一个新的样本x,计算其条件概率p(y=c|x)，即后验概率

后验概率可以可以基于贝叶斯公式得到

$p(y=c|x)=\frac{p(y=c)p(x|y=c)}{\sum_{c^{'}=1}^{C}p(y=c^{'})p(x|y=c^{'})}$

其中p(x|y=c)是类条件概率密度，p(y=c)是类的先验概率。若采用这种方法的模型，称为是产生式模型。之所以被称为产生式模型，是因为在产生式模型中有p(x|y=c)和p(y=c)，可得到数据的分布p(x，y=c)=p(y=c)p(x|y=c),从而可以从分布中产生数据p(x，y=c)（如随机采样）

分类算法也可以直接对后验概率进行建模，如LR模型中我们假设 $p(y=1|x)=\sigma (w^Tx)$ ,而无需知道类先验概率和类条件概率。若采用这种方法的模型，称为判别式模型。

因为有了后验概率后，分类算法可以根据最大后验概率，将输入空间划分成许多不相交的区域，这些区域之间的分隔面被称为判别函数（也称为分类面），有了判别函数，就可以进行分类。

判别式模型直接对后验概率进行建模，从而得到判别函数。产生式模型，最终也是为了得到判别函数。还有一些模型（如SVM）,直接对判别函数进行求解，得到判别面，也被称为判别式法。

2.1.1Logistic分布

LR回归是在线性回归模型的基础上，再用sigmoid函数得到概率。这里就先介绍一下sigmoid函数

首先，需要对logistic分布进行说明，这个分布的概率密度函数（pdf）为:

$p(x;u,s)=\frac{e^{-(x-u)/s}}{s(1+e^{-(x-u)/s})}$

累积分布函数（CDF）为：

$F(x;u,s)=\frac{1}{e^{-(x-u)/s}}$

其中u表示位置参数，s是形状参数

下图为不同的u和s的情况下，Logistic分布的概率密度函数的图形：

Logistic分布的概率密度函数

下图为不同的u和s的情况下，Logistic分布的累积分布函数的图形：

Logistic分布的累积概率函数

由图可以看出，Logistic分布的形状与正态分布的形状相似。但是Logistic分布的尾部更长。Logistic分布的概率分布函数的图形是一条S形曲线，在中心附近增长速度较快，而在两端的增长速度相比较慢。该曲线以点（u,1/2）位中心对称，即满足 $F(-x+u)-\frac{1}{2}=F(x+u)+\frac{1}{2}$

当u=0,s=1时，Logistic分布的概率函数就是我们常说的sigmoid函数：

$\sigma(a) = \frac{1}{1+e^{-a}}$

且其导数为：

最低0.47元/天解锁文章

qq_389825161

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
机器学习—分类模型

第二章分类模型给定训练数据分类任务学习一个输入x到输出y的映射f：//最大后验估计其中，y为离散值，其值范围为标签空间：当C=2时，为两类分类问题贝叶斯公式先验概率 p(y=c)//根据以往的经验和分析得到的概率类条件概率 ...
复制链接

扫一扫