生成模型与判别模型——并蒂芙蓉本自双

最新推荐文章于 2024-05-21 15:39:16 发布

云中君不见

最新推荐文章于 2024-05-21 15:39:16 发布

阅读量192

点赞数

文章标签： python sklearn

本文链接：https://blog.csdn.net/cendrier/article/details/127799106

版权

生成模型与判别模型

有监督机器学习方法可以分为生成模型 (generative approche) 与判别模型 (discriminative approche)。

Discriminative models draw boundaries in the data space, while generative models try to model how data is placed throughout the space. A generative model focuses on explaining how the data was generated, while a discriminative model focuses on predicting the labels of the data.
In mathematical terms, a discriminative machine learning trains a model which is done by learning parameters that maximize the conditional probability P(Y|X), while on the other hand, a generative model learns parameters by maximizing the joint probability of P(X, Y).

一言以蔽之，判别模型的工作是直接学习决策函数 $f (X)$ ，或是估计 $P (Y ∣ X)$ 。生成模型稍微绕了一下，通过估计 $P (X, Y)$ 间接地得到 $P (Y ∣ X)$ （通过贝叶斯公式）。尽管生成模型较为复杂，但它的优势在于，它可以生成接近原数据分布的新的数据，因此得名。

常见的生成模型有：朴素贝叶斯、GAN（生成对抗网络）、LDA/QDA、HMM（隐马尔可夫模型）
常见的判别模型有：KNN、逻辑回归、MLP（多层感知机）、决策树、随机森林、SVM等。

一般我们对判别模型更熟悉，那这次就接触一点不一样东西——生成模型。

朴素贝叶斯

朴素贝叶斯（naïve Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法。
对于给定的训练数据集，首先基于特征条件独立假设学习 $P (X, Y)$ ；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出y。

特征条件独立假设：输入X是一个n维向量（n个特征）
$P(X=x|Y=c_k) = P(X_1=x_1, ..., X_n=x_n |Y=c_k)= \prod_{i=1}^n P(X_i=x_i | Y=c_k)$
这是一个非常强的假设，因此这个方法叫做naïve Bayes. 在此假设下，可以简化后验概率：
$P(Y=c_k | X=x) \propto P(Y=c_k) \prod_{i=1}^n P(X_i=x_i | Y=c_k)$
通过极大似然法估计先验概率和条件概率，前者就是 $y$ 的各个类在训练集中的出现频率。朴素贝叶斯的分类结果是：
$argmax_{c_k} [P(Y=c_k) \prod_{i=1}^n P(X_i=x_i | Y=c_k)]$
基于对条件概率 $P(X_i=x_i | Y=c_k)$ 的不同分布假设，朴素贝叶斯可以分为许多种。我们简单看一下sklearn中实现的几种。

Gaussian Naive Bayes

高斯朴素贝叶斯，假设条件概率满足高斯分布：
$P(X_i=x_i | Y=c_k)] = \frac{1}{\sqrt{2\pi \sigma_{c_k}}} exp(-\frac{(x_i-\mu_i)^2}{2 \sigma_{c_k}^2})$

Multinomial Naive Bayes

多项分布朴素贝叶斯，以及之后提到的互补朴素贝叶斯，是两种常用的文本分类器。它们简单易实现，常作为baseline，与其他复杂的文本分类算法比较。典型的应用场景包括垃圾邮件分类、产品标签分类等。
sklearn的文档把公式列得很清楚：Multinomial Naive Bayes
在这里插入图片描述

$i$ is the word index (in case of text classification), $y$ indicates the class. In case of spam email classification, $\in \{\text{spam}, \text{not spam} \}$ .

这里的参数 $\theta_{yi}$ 反映的是单词 $i$ 出现的相对频率，是极大似然法结果的平滑版本，防止出现 $\theta_{yi}=0$ 的情况。

Complement Naive Bayes

互补朴素贝叶斯（CNB）是多项分布朴素贝叶斯（MNB）的修改版本，在非平衡的数据集上做了改进。在文本分类的任务上，CNB往往优于MNB。sklearn文档：Complement Naive Bayes

在这里插入图片描述

这次的 $\theta_{ci}$ （对应上面的 $\theta_{yi}$ ）计算的是单词 $i$ 出现在不同于类别 $c$ 的文档中的频率。这个频率越高，说明单词 $i$ 越“不属于”类别 $c$ .
sklearn文档中没有解释公式最后一行的 $t_i$ ，通过查阅原论文，发现 $t_i$ 指的是单词 $i$ 在当前要分类的文本中出现的次数。

CNB提到， $d_{ij}$ 不仅可以使用单词的出现次数，也可以用TF-IDF。那什么是TF-IDF？这就作为本篇的一个拓展吧。

拓展：TF-IDF

Term Frequency–Inverse Document Frequency (TF-IDF) 是 word count vector 之外，另一种编码文档单词的方式。下图是 word count vector 编码的示例，它统计每个单词在每个文档中出现的次数。
Picture from Jon Gimpel
而 TF-IDF 是由两项——TF 和 IDF——相乘得到的。

在这里插入图片描述
$t$ 代表单词； $d$ 代表文档； $n$ 代表单词 $t$ 在文档 $d$ 中出现的次数； $N$ 是单词 $t$ 在所有文档中出现的总次数。
$D$ 代表所有文档的个数； $|\{d \in D : t \in d\}|$ 代表出现过单词 $t$ 的文档个数。

直观来理解：给定单词 $t$ 和文档 $d$ ，该单词在该文档中出现的相对次数越多，它对于该文档越重要（TF一项）；同时，如果该单词也出现在了很多其他文档中，那么它对于该文档的重要性会随之下降（IDF一项）。

相对于 word count vector 编码，TF-IDF的编码方式限制了对常用词给予过多的权重。以英文单词为例，诸如the, a, and 等词在每篇文章的出现频率都会高。word count vector 编码方式会对这些词在所有文档中统统给予很高权重。而TF-IDF通过IDF这项，可以极大限制这些词的权重（比如每篇文章中都出现了单词 a ，此时 $|\{d \in D : t \in d\}| = D$ ，IDF一项趋近于0）。