分类：从生成模型到判别模型

最新推荐文章于 2024-09-30 10:26:58 发布

Prophet_Yu

最新推荐文章于 2024-09-30 10:26:58 发布

阅读量4.9k

点赞数

分类专栏：机器学习文章标签：算法

本文链接：https://blog.csdn.net/weixin_38345294/article/details/72742454

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在解决分类问题时，生成模型（generative model）和判别模型（discriminative model）是常用的两类模型。生成模型从数据中学习特征和标签的联合概率分布p(x,y)，而判别模型则学习条件概率分布p(y|x)。本文主要介绍两类模型中常见的几种算法以及它们的内在联系。

生成模型

1.高斯生成模型

假设一个二分类任务中含有类别 $C_k,k=1,2$ ，样本特征向量为x。概率生成模型的主要思想是先从样本中学习联合概率分布 $p(x,C_k)$ ，然后通过边缘化(marginalization) 得到 $p(x)$ ，最后由贝叶斯公式得到 $p(C_k|x)$ ，从而可以根据 $p(C_k|x)$ 将样本划入概率最大的类。

举例来说，假设样本特征向量的类条件概率(class-conditional probability)服从高斯分布，即 $p(x|C_k)= N(\mu_k ,\Sigma)$ 。设 $t$ 为样本标签，若样本属于 $C_1$ 则 $t=1$ ；若样本属于 $C_2$ 则 $t=0$ 。设 $p(t=1)=\pi$ ,则 $p(t=0)=1-\pi$ 。
所以联合概率:

p (x, t = 1) = p (t = 1) p (x | t = 1) = π N (x | μ 1, Σ)

$p(x,t=1)=p(t=1)p(x|t=1)=\pi N(x|\mu_1,\Sigma)$

p (x, t = 0) = p (t = 0) p (x | t = 0) = (1 - π) N (x | μ 2, Σ)

$p(x,t=0)=p(t=0)p(x|t=0)=(1-\pi) N(x|\mu_2,\Sigma)$
整个样本集的联合概率：

p (x, t) = \prod n = 1 N [π N (x n | μ 1, Σ)] t n [(1 - π) N (x n | μ 2, Σ)] 1 - t n

$p(\mathbf{x},\mathbf{t})=\prod\limits_{n=1}^N{[\pi N(\mathbf{x}_n|\mu_1,\Sigma)]}^{\mathbf{t}_n}{[(1-\pi) N(\mathbf{x}_n|\mu_2,\Sigma)]}^{1-\mathbf{t}_n}$
通过极大似然估计法我们可以得到各分布参数的估计值：

π = N 1 N 1 + N 2

$\pi=\frac{N_1}{N_1+N_2}$
其中

N1 $N_1$ 为

C1 $C_1$ 中包含的样本个数，

N2 $N_2$ 为

C2 $C_2$ 中包含的样本个数。

μ 1 = 1 N 1 \sum n = 1 N t n x n

$\mu_1=\frac{1}{N_1}\sum\limits_{n=1}^N\mathbf{t}_n\mathbf{x}_n$

μ 2 = 1 N 2 \sum n = 1 N (1 - t n) x n

$\mu_2=\frac{1}{N_2}\sum\limits_{n=1}^N(1-\mathbf{t}_n)\mathbf{x}_n$

Σ = N 1 N S 1 + N 2 N S 2

$\Sigma=\frac{N_1}{N}S_1+\frac{N_2}{N}S_2$

S k = 1 N k \sum n \in C k (x n - μ k) (x n - μ k) T

$S_k=\frac{1}{N_k}\sum\limits_{n\in C_k}(\mathbf{x_n}-\mu_k){(\mathbf{x_n}-\mu_k)}^T$
有了所有的分布参数，我们就可以通过边缘化和贝叶斯公式求解

p(t|x) $p(t|x)$ ，从而对样本进行分类。

2.朴素贝叶斯

在面对离散特征时，我们可以将高斯分布改为其他多元离散分布。但是这么做仍然存在一个问题。假设样本有M个二元离散特征，那么M维的特征向量就会有 $2^M$ 种取值。为了拟合分布函数 $p(x|t)$ ，我们就需要 $2^M-1$ 个参数。当M很大时，参数的数量就会变得超级庞大，这不但意味着问题的求解变得很耗时，而且需要的训练样本数量也会变大非常巨大。朴素贝叶斯很好地解决了这个问题。
朴素贝叶斯做了一个很naive的假设，它假设所有的特征都是条件独立的，即 $p(x_1,x_2,...,x_M|C_k)=p(x_1|C_k)p(x_2|C_k)\cdot\cdot\cdot p(x_M|C_k)，k=1,2$ 。这样一来，由于所有特征都是二元变量，所以我们只需要一个参数来拟合每个条件概率分布，总共2M个参数，大大减少了任务复杂度，尤其是在M很大的时候。

朴素贝叶斯的求解步骤：
1. 拟合 $p(x_i|t),i=1,...,M, t=0,1$ 和 $p(t), t=0,1$ ，拟合的方法就是直接从样本计算对应频率；
2. 由 $p(\mathbf{x},t)=p(x_1|t)p(x_2|t)\cdot\cdot\cdot p(x_M|t) p(t)$ 得出联合概率分布。
3. 由 $p(t|\mathbf{x})=\frac{p(t,\mathbf{x})}{p(t=0,\mathbf{x})+p(t=1,\mathbf{x})}$ 得出后验概率，通过后验概率进行分类。

进一步地思考，当特征空间既包含离散变量又包含连续变量的时候该怎么办呢？

一种做法是把连续变量离散化，从而回到只包含离散特征的分类问题。但是这么做有的时候会把有用信息抹掉。举个例子，一个二分类任务含有一个连续特征 $x$ ， $x|C_1$ 服从一个间断的均匀分布，取值范围 $[0,1]\cup [3,4]$ ， $x|C_2$ 服从均匀分布 $U(1,3)$ 。如果把 $x$ 按中点离散成一个二元变量，即若 $x<2$ 令 $x=0$ ，若 $x\geq 2$ 则令 $x=1$ ，那么 $p(x=0|C_1)=p(x=0|C_2)=\frac{1}{2}$ 。我们知道 $p(C_k|x)\propto p(x|C_k)p(C_k)$ ，所以在这种离散化方法之后，x无法提供给我们任何有用的信息。

一种更好的做法是拟合连续分布 $p(x_i|C_k)$ ，然后将连续分布概率密度代入上述步骤2中。从而求解后验概率。

判别模型

3.逻辑回归

我们将二分类中的后验概率变换一下形式：
$p(C_1|\mathbf{x})=\frac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_1)p(C_1)+p(\mathbf{x}|C_2)p(C_2)}$
$=\frac{1}{1+\frac{p(\mathbf{x}|C_2)p(C_2)}{p(\mathbf{x}|C_1)p(C_1)}}$
$=\frac{1}{1+e^{-a(\mathbf{x})}}=\sigma(a(\mathbf{x}))$

其中：

a (x) = l n p ( x | C 1 ) p ( C 1 ) p ( x | C 2 ) p ( C 2 )

$a(\mathbf{x})=ln\frac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_2)p(C_2)}$

σ (a) = 1 1 + e - a

$\sigma(a)=\frac{1}{1+e^{-a}}$

σ(⋅) $\sigma(\cdot)$ 就是大名鼎鼎的逻辑函数。

按照之前高斯生成模型中的假设，样本特征向量的类条件概率(class-conditional probability)服从高斯分布，即 $p(x|Ck)=N(μ_k,Σ)$ ,有：

p (x | C k) = 1 ( 2 π ) D / 2 1 | Σ | 1 / 2 e - 1 2 (x - μ k) T Σ - 1 (x - μ k) = 1 ( 2 π ) D / 2 1 | Σ | 1 / 2 e - 1 2 x T Σ - 1 x \times e μ k T Σ - 1 x - 1 2 μ k T Σ - 1 μ k

$p(\mathbf{x}|C_k)=\frac{1}{{(2\pi)}^{D/2}}\frac{1}{{|\Sigma|}^{1/2}}e^{-\frac{1}{2}{(\mathbf{x}-\mu_k)}^T{\Sigma}^{-1}(\mathbf{x}-\mu_k)} =\frac{1}{{(2\pi)}^{D/2}}\frac{1}{{|\Sigma|}^{1/2}}e^{-\frac{1}{2}\mathbf{x}^T\Sigma^{-1}\mathbf{x}}\times e^{{\mu_k}^T\Sigma^{-1}\mathbf{x}-\frac{1}{2}{\mu_k}^T\Sigma^{-1}\mu_k}$

代入上述 $a(\mathbf{x})$ 中，我们得到：

a (x) = l n p ( x | C 1 ) p ( C 1 ) p ( x | C 2 ) p ( C 2 ) = l n e μ 1 T Σ - 1 x - 1 2 μ 1 T Σ - 1 μ 1 e μ 2 T Σ - 1 x - 1 2 μ 2 T Σ - 1 μ 2 + l n p ( C 1 ) p ( C 2 ) = w T x + w 0

$a(\mathbf{x})=ln\frac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_2)p(C_2)}=ln\frac{e^{{\mu_1}^T\Sigma^{-1}\mathbf{x}-\frac{1}{2}{\mu_1}^T\Sigma^{-1}\mu_1}}{e^{{\mu_2}^T\Sigma^{-1}\mathbf{x}-\frac{1}{2}{\mu_2}^T\Sigma^{-1}\mu_2}}+ln\frac{p(C_1)}{p(C_2)}=\mathbf{w}^T\mathbf{x}+w_0$
其中：

w = Σ - 1 (μ 1 - μ 2)

$\mathbf{w}=\Sigma^{-1}(\mu_1-\mu_2)$

w 0 = - 1 2 μ 1 T Σ - 1 μ 1 + 1 2 μ k T Σ - 1 μ 2 + l n p ( C 1 ) p ( C 2 )

$w_0=-\frac{1}{2}{\mu_1}^T\Sigma^{-1}\mu_1+\frac{1}{2}{\mu_k}^T\Sigma^{-1}\mu_2+ln\frac{p(C_1)}{p(C_2)}$
从这里，一方面我们可以发现，由生成模型可以推导出判别模型。另一方面，当假设所有的类条件概率是协方差矩阵相同的高斯分布时，

a(x) $a(\mathbf{x})$ 是

x $\mathbf{x}$ 的线性函数。既然如此，当我们的目的只是分类而不需要知道样本的联合分布时，我们就可以直接学习参数

w $\mathbf{w}$ 和

w0 $w_0$ ，而不用再去学习之前那些复杂的分布参数了。假设一共M个特征，在之前的概率生成模型中，我们需要学习两个

μ $\mu$ 和一个

Σ $\Sigma$ ，每个

μ $\mu$ 中包含M个参数，

Σ $\Sigma$ 中包含

M(M+1)/2 $M(M+1)/2$ 个参数，一共