从贝叶斯分类到logistic regression

林书芹

于 2021-10-12 15:51:53 发布

阅读量164

点赞数

分类专栏：深度学习文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/weixin_43335465/article/details/120630031

版权

深度学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

从贝叶斯分类到logistic regression

笔者注：本文是台湾李宏毅教授机器学习第四章的学习笔记，其中大部分为数学推导。

第四章主要讲分类问题。给定一个输入 $x$ ，目的是寻找一个function，使得当该function作用于 $x$ 时，能够输出x所属的类别。

问题描述

我们首先考虑一个二分类问题，即 $x$ 要么属于 class $C_1$ ，要么属于class $C_2$ ，设 $P$ 表示概率，那么一个理所应当的分类效果为，把 $x$ 分类到所属概率最大的那一类。用数学公式表示为：
$\text{if} \quad P(C_1|x) > P(C_2|x) , \text{then} \quad x\rightarrow C_1 \\ \text{else} \quad P(C_1|x) < P(C_2|x) , \text{then} \quad x\rightarrow C_2$

当 $P(C_1|x) = P(C_2|x)$ 时，可以分成任何一个类别。当然，这并不是一个好的分类器。

然而，在实际应用中， $P(C_1|x)$ 和 $P(C_2|x)$ 通常是未知的，需要通过一定的数学运算求解，这里应用Bayes Rule和全概率公式，有
$P(C_i|x) = \frac{P(x|C_i)P(C_i)}{P(x)} = \frac{P(x|C_i)P(C_i)}{\sum_{i}P(x|C_i)P(C_i)}$
对于二分类任务，有
$P(C_1|x) = \frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)} \\ P(C_2|x) = \frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}$
因此，只要知道 $P(C_1)、P(C_2)、P(x|C_1)、P(x|C_2)$ 这四个概率值即可实现分类。

先验概率

上式中， $P(C_1)、P(C_2)$ 称为先验概率，即可以根据以往经验和分析，在实验前就可以得到的概率。例如，对于猫和狗的图片二分类问题， $C_1、C_2$ 分别代表图片集中分类成猫和狗的概率，那么，可以通过计算训练集中猫和狗的数量来近似得到先验概率：
$P(C_1) = \frac{N_{1}}{N_{total}} \\ P(C_2) = \frac{N_{2}}{N_{total}}$

条件概率

$P(x|C_1)、P(x|C_2)$ 为条件概率，表述为，已知输入特征 $x$ ，给定分类集合 $C_1 、C_2$ ， $x$ 在某种分类种出现的可能性（概率）为多少。因此我们首先需要知道分类 $C_1、C_2$ 的概率分布函数，然后将特征 $x$ 带入即可得到概率值。
假设该分布函数符合高斯分布。属于类别 $C_1$ 中的特征都是从 $C_1$ 的高斯分布中采样而得到的，属于类别 $C_2$ 中的特征都是从 $C_2$ 的高斯分布中采样而得到的。要得到一个未知向量 $x$ 输入时的条件概率，首先就要求出分类 $C_1、C_2$ 所服从的概率分布。假设多维高斯分布表达如下：
$f_{\mu, \Sigma}(x)=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\Sigma|^{1 / 2}} \exp \left\{-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right\}$

至于为什么使用高斯分布，如果我用其他的分布你也会问同样的问题。You can always use the distribution you like.

其中， $\mu$ 和 $\Sigma$ 分别代表均值向量和协方差矩阵。要求出对应于每类 $C_i$ 的概率分布，也就是求出 $\mu_i$ 和 $\Sigma_i$ ，此时问题变成参数估计：已知数据集 $X$ ，求该集合背后最佳的高斯分布的均值和协方差。
最大似然法通常被用来求解相关问题，通过使得似然函数最大的参数被认为是最好的参数，似然函数定义如下：
$L(\mu, \Sigma)=f_{\mu, \Sigma}\left(x^{1}\right) f_{\mu, \Sigma}\left(x^{2}\right) f_{\mu, \Sigma}\left(x^{3}\right) \ldots \ldots f_{\mu, \Sigma}\left(x^{N_i}\right)$
其中， $f ()$ 为分布函数， $N_i$ 为属于 class $C_i$ 的训练样本个数。因此最佳的 $\mu$ 和 $\Sigma$ 为：
$\mu^{*}, \Sigma^{*}=\arg \max _{\mu, \Sigma} L(\mu, \Sigma)$
求解得到，
$\mu^{*}_i=\frac{1}{N_i} \sum_{n=1}^{N_1} x^{n} \\ \Sigma^{*}_i=\frac{1}{N_i} \sum_{n=1}^{N_i}\left(x^{n}-\mu^{*}\right)\left(x^{n}-\mu^{*}\right)^{T}$
其中， $\mu^{*}_i、\Sigma^{*}_i$ 为第 $C_i$ 类的均值和协方差， $x ^n$ 代表第 $n$ 个输入样本。
通过以上公式求出各种分类的分布函数 $f_i(\mu$ , $\Sigma)$ 后，带入未知向量 $x$ ，求出 $P(x|C_1)、P(x|C_2)$ ，最终即可得到 $P(C_1|x) ， P(C_2|x)$ ，判断大小之后完成分类。

如果为每个类别都使用完全不同的高斯分布，所得到的分类结果并不尽人意。通常可以修改此模型，使得每个类别的高斯分布的协方差矩阵相同，改变的只是均值。这么做的好处是，一方面减少了参数的个数，一方面提高了分类准确率。

由于是通过生成分布进行分类，该方法被称为 Generative Model.

logistic regression

回到贝叶斯分类，根据以下公式，有：
$\begin{aligned} &P\left(C_{1} \mid x\right)=\frac{P\left(x \mid C_{1}\right) P\left(C_{1}\right)}{P\left(x \mid C_{1}\right) P\left(C_{1}\right)+P\left(x \mid C_{2}\right) P\left(C_{2}\right)} \\ &=\frac{1}{1+\frac{P\left(x \mid C_{2}\right) P\left(C_{2}\right)}{P\left(x \mid C_{1}\right) P\left(C_{1}\right)}}=\frac{1}{1+\exp (-z)}=\sigma(z) \end{aligned}$
其中，
$z=\ln \frac{P\left(x \mid C_{1}\right) P\left(C_{1}\right)}{P\left(x \mid C_{2}\right) P\left(C_{2}\right)}$
$\sigma()$ 为 sigmoid 函数。对 $z$ 进行化简，
$z=\ln \frac{P\left(x \mid C_{1}\right)}{P\left(x \mid C_{2}\right)}+\ln \frac{P\left(C_{1}\right)}{P\left(C_{2}\right)}$
其中， $\ln \frac{P\left(C_{1}\right)}{P\left(C_{2}\right)} = \frac{\frac{N_{1}}{N_{1}+N_{2}}}{\frac{N_{2}}{N_{1}+N_{2}}}=\frac{N_{1}}{N_{2}}$ ， $P\left(x \mid C_{1}\right)、P\left(x \mid C_{2}\right)$ 分别为高斯分布，
$\begin{aligned} &P\left(x \mid C_{1}\right)=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{\left|\Sigma^{1}\right|^{1 / 2}} \exp \left\{-\frac{1}{2}\left(x-\mu^{1}\right)^{T}\left(\Sigma^{1}\right)^{-1}\left(x-\mu^{1}\right)\right\} \\ &P\left(x \mid C_{2}\right)=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{\left|\Sigma^{2}\right|^{1 / 2}} \exp \left\{-\frac{1}{2}\left(x-\mu^{2}\right)^{T}\left(\Sigma^{2}\right)^{-1}\left(x-\mu^{2}\right)\right\} \end{aligned}$
带入化简，有
$\begin{aligned} z &= \ln \frac{P\left(x \mid C_{1}\right)}{P\left(x \mid C_{2}\right)}+\ln \frac{P\left(C_{1}\right)}{P\left(C_{2}\right)} \\ & = \frac{\left|\Sigma^{2}\right|^{1 / 2}}{\left|\Sigma^{1}\right|^{1 / 2}}-\frac{1}{2}\left[\left(x-\mu^{1}\right)^{T}\left(\Sigma^{1}\right)^{-1}\left(x-\mu^{1}\right)-\left(x-\mu^{2}\right)^{T}\left(\Sigma^{2}\right)^{-1}\left(x-\mu^{2}\right)\right] + \ln \frac{N_{1}}{N_{2}} \\ & = \begin{aligned} &\ln \frac{\left|\Sigma^{2}\right|^{1 / 2}}{\left|\Sigma^{1}\right|^{1 / 2}}-\frac{1}{2} x^{T}\left(\Sigma^{1}\right)^{-1} x+\left(\mu^{1}\right)^{T}\left(\Sigma^{1}\right)^{-1} x-\frac{1}{2}\left(\mu^{1}\right)^{T}\left(\Sigma^{1}\right)^{-1} \mu^{1} \\ &+\frac{1}{2} x^{T}\left(\Sigma^{2}\right)^{-1} x-\left(\mu^{2}\right)^{T}\left(\Sigma^{2}\right)^{-1} x+\frac{1}{2}\left(\mu^{2}\right)^{T}\left(\Sigma^{2}\right)^{-1} \mu^{2}+\ln \frac{N_{1}}{N_{2}} \end{aligned} \end{aligned}$
不妨假设 $\Sigma_{1}=\Sigma_{2}=\Sigma$ ，则，
$z=\left(\mu^{1}-\mu^{2}\right)^{T} \Sigma^{-1} x-\frac{1}{2}\left(\mu^{1}\right)^{T} \Sigma^{-1} \mu^{1}+\frac{1}{2}\left(\mu^{2}\right)^{T} \Sigma^{-1} \mu^{2}+\ln \frac{N_{1}}{N_{2}}$
其中，令
$w^T = \left(\mu^{1}-\mu^{2}\right)^{T} \Sigma^{-1} \\ b = -\frac{1}{2}\left(\mu^{1}\right)^{T} \Sigma^{-1} \mu^{1}+\frac{1}{2}\left(\mu^{2}\right)^{T} \Sigma^{-1} \mu^{2}+\ln \frac{N_{1}}{N_{2}}$
$z$ 可以重新写成 $z = w^T x + b$ 。即：
$P\left(C_{1} \mid x\right)=\sigma(w \cdot x+b)$
此时可以通过使用 gradient descent 方法，直接找到 $w$ 和 $b$ 。
以上方法被称为 Discriminative Model.

Generative v.s. Discriminative

在这里插入图片描述

林书芹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从贝叶斯分类到logistic regression

从贝叶斯分类到logistic regression笔者注：本文是台湾李宏毅教授机器学习第四章的学习笔记，其中大部分为数学推导。第四章主要讲分类问题。给定一个输入 xxx，目的是寻找一个function，使得当该function作用于 xxx 时，能够输出x所属的类别。问题描述我们首先考虑一个二分类问题，即 xxx 要么属于 class C1C_1C1，要么属于class C2C_2C2，设 PPP 表示概率，那么一个理所应当的分类效果为，把 xxx 分类到所属概率最大的那一类。用数学公式表示为
复制链接

扫一扫