生成式模型和判别式模型的对比

最新推荐文章于 2024-10-11 12:02:37 发布

D_BigWolf

最新推荐文章于 2024-10-11 12:02:37 发布

阅读量707

点赞数 1

分类专栏：机器学习文章标签：生成模型判别模型

本文链接：https://blog.csdn.net/D_BigWolf/article/details/77781911

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

生成式模型和判别式模型的对比

1、概述：

生成式模型

生成式模型(Generative Model)的hypothesis是对 $X$ 和 $y$ 的联合分布 $p(X,y)$ 的建模：

a r g max y i p (y i | X) = a r g max y i p ( X | y i ) p ( y i ) p ( X )

$arg \max_{y_i} p(y_i|X)=arg \max_{y_i} \frac {p(X|y_i)p(y_i)}{p(X)}$
同一个样本对于所有的类别

yi $y_i$ ,分母

p(X)=∑ki=0{p(yi)∏nj=0p(X(j)|yi)} $p(X) = \sum_{i=0}^k \{p(y_i)\prod_{j=0}^n p(X^{(j)}|y_i)\}$ 是相等的，这里其实也隐藏着假设了样本的每个维度的特征之间是两两条件独立的，（

k $k$ 是类别总数，

n $n$ 是特征维数）所以

a r g max y i p (y i | X) = a r g max y i p ( X , y i ) p ( X ) = a r g max y i p (X, y i)

$arg \max_{y_i} p(y_i|X) = arg \max_{y_i} \frac {p(X,y_i)}{p(X)} = arg \max_{y_i} p(X,y_i)$

常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯判别分析模型GDA、LDA等。

判别式模型

判别式模型(Discriminative Model)，又称为条件概率模型，其hypothesis是对条件概率 $p(y=y_i|X;\omega,b)$ 或者 $y=f(x)$ 这样的决策函数进行建模。

例如 Logistic regression模型是先对 $p(y|x;\omega, b)$ 进行建立模型，如Linear Regression模型是对决策函数模型建立，都是直接对判别这一步的问题进行建模。
在下面分别会以生成式模型和判别式模型的两个例子进行说明方便理解两者不同。

2、举例：

判别式模型案例：Logistic Regression

Hypothesis:

f (X) = p (y = 1 | X; ω, b) = 1 1 + e - ( ω T X + b )

$f(X)=p(y=1|X;\omega,b)=\frac{1}{1+e^{-(\omega^T X + b)}}$
注意看这里直接对

p(y|X) $p(y|X)$ 进行参数化建模，这就是我说的直接对判别那一步的依据进行建模，等会注意下面的生成式模型怎么建模的，下面便是利用最大似然准则进行优化，得到

ω $\omega$ ：

L (ω, b) = \prod i = 1 s p (y = y i | X i; ω, b) = \prod i = 1 s f (X) y i (1 - f (X)) 1 - y i

$L(\omega,b) = \prod_{i=1}^s p(y=y_i|X_i;\omega,b) = \prod_{i=1}^s f(X)^{y_i}(1-f(X))^{1-y_i}$

（ $s$ 是样本总数）注意看这里的转化，我一直都觉得太机智，将一个bool型的逻辑问题，巧妙地利用了0-1分类中的标签的特殊性转化为指数函数的形式表达出来了，我每次想到这个时候都被深深地折服了，真是太机智了。

I n (L (ω, b)) = \sum i = 1 s {y i I n (1 1 + e - ( ω T X i + b )) + (1 - y i) I n (e - ( ω T X i + b ) 1 + e - ( ω T X i + b ))}

$In(L(\omega,b)) = \sum_{i=1}^s \{y_iIn(\frac {1} {1+e^{-(\omega^TX_i+b)} })+(1-y_i)In(\frac{e^{-(\omega^T X_i+b)}}{1+e^{-(\omega^TX_i+b)}})\}$
下面就要求导啦！

\nabla ω (j) I n (L (ω, b)) = \sum i = 1 s {y i e - ( ω T X i + b ) 1 + e - ( ω T X i + b ) X (j) i + (y i - 1) 1 1 + e - ( ω T X i + b ) X (j) i} = \sum i = 1 s y i X (j) i - X ( j ) i 1 + e - ( ω T X i + b )

$\nabla_{\omega^{(j)}} In(L(\omega,b))=\sum_{i=1}^s \{ y_i \frac{e^{-(\omega^TX_i+b)}}{1+e^{-(\omega^TX_i+b)}}X_i^{(j)} + (y_i-1) \frac {1}{1+e^{-(\omega^T X_i+b)}} X_i^{(j)} \} \\ =\sum_{i=1}^s {y_i X_i^{(j)} - \frac{X_i^{(j)}}{1+e^{-(\omega^TX_i+b)}}} ~~~~~~~~~~~~~~~~~~~~~~~$

\nabla b I n (L (ω, b)) = \sum i = 1 s y i - 1 1 + e - ( ω T X i + b )

$\nabla_{b} In(L(\omega,b)) =\sum_{i=1}^s {y_i - \frac{1}{1+e^{-(\omega^TX_i+b)}}}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~$

然后可以用基于的梯度的优化方法优化就好了！

生成式模型案例：GDA

高斯判别模型是一种生成式模型，我写东西最怕的就是写着写着跑题了，这篇博客主要是要帮助我们理解判别模型和生成式模型的区别，不是那种简单地概括几点地特点就好像说明清楚了，而是要从本质上理解两者在定义级别上地区别性，我们说过了生成式模型式对 $X$ 和 $y$ 联合分布 $p(X,y)$ 进行建模。我们一起从这个角度来看看高斯判别模型（GDA）为啥是一个生成式模型。
Hypothesis:

y \sim B e r n o u l l i (ϕ)

$y \sim Bernoulli(\phi)$

x | y = 0 \sim N (μ 0, Σ)

$x|y=0 \sim N(\mu_0,\Sigma)$

x | y = 1 \sim N (μ 1, Σ)

$x|y=1 \sim N(\mu_1,\Sigma)$
概率公式：

p (y) = ϕ y (1 - ϕ) 1 - y

$p(y)=\phi^y(1-\phi)^{1-y}$

p (x | y = 0) = 1 ( 2 π ) n 2 | Σ | 1 2 e x p (- 1 2 (x - μ 0) T Σ - 1 (x - μ 0)))

$p(x|y=0) = \frac{1}{(2\pi)^\frac{n}{2} |\Sigma|^\frac{1}{2}}exp(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)))$

p (x | y = 1) = 1 ( 2 π ) n 2 | Σ | 1 2 e x p (- 1 2 (x - μ 1) T Σ - 1 (x - μ 1)))

$p(x|y=1) = \frac{1}{(2\pi)^\frac{n}{2} |\Sigma|^\frac{1}{2}}exp(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)))$
然后利用最大似然的准则进行优化：

L (ϕ, μ 0, μ 1, Σ) = l o g \prod i = 1 n p (x i, y i; ϕ, μ 0, μ 1, Σ) = l o g \prod i = 1 n p (x i | y i; μ 0, μ 1, Σ) p (y i; ϕ)

$L(\phi,\mu_0,\mu_1,\Sigma) = log \prod_{i=1}^n p(x_i,y_i;\phi,\mu_0,\mu_1,\Sigma)\\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~= log \prod_{i=1}^n p(x_i|y_i;\mu_0,\mu_1,\Sigma)p(y_i;\phi)$