CS229 Lecture 5

最新推荐文章于 2020-09-18 21:06:49 发布

Light_blue_love

最新推荐文章于 2020-09-18 21:06:49 发布

阅读量202

点赞数

分类专栏： CS229

本文链接：https://blog.csdn.net/Light_blue_love/article/details/98119334

版权

CS229 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

本节讲解了生成学习算法，包括高斯判别分析和朴素贝叶斯方法。高斯判别分析假设特征服从高斯分布，通过最大化似然函数估计参数，用于分类预测。朴素贝叶斯则基于特征条件独立假设，简化了模型复杂度，适用于文本分类等任务。Laplace平滑解决了未观测到的特征导致的概率为零问题。

摘要由CSDN通过智能技术生成

CS229 Lecture 5

本节课重点：

Generative Learning algorithms
Gaussian discriminant analysis
Naive Bayes
Laplace smoothing

如果一个算法目的是学习 $p (y ∣ x)$ 或者直接学习根据 $x$ 预测数据的标签 ${0,1\}$ 。这类学习算法称为判别学习算法( $discriminative\,\,learning\,\, algorithms$ )

本节课主要涉及的是算法主要是模拟 $p (x ∣ y)$ 基于 $p (y)$ 。此类学习方法称为生成学习算法。其中 $x$ 是样本特征， $y$ 是类别标签。生成学习方法主要基于贝叶斯算法。
$p(y=1|x)=\frac{p(x|y=1)p(y)}{p(y)}\\ p(x)=p(x|y=1)p(y=1)+p(x|y=0)p(y=0)$

生成学习方法的例子：高斯判别分析

假设： $x\in R^n$ ,并且是连续值。且 $p (x ∣ y)$ 是高斯分布。

现有变量 $x\sim N(\vec u,\Sigma)$ ,其密度函数为:

$p(x;u,\Sigma)=\frac{1}{(2\pi)^{1/2}|\Sigma|^{1/2}}exp(-(x-u)^T\Sigma^{-1}(x-u))$

其中 $\vec u$ 是多变量高斯分的均值， $\Sigma$ 为协方差矩阵。 $\Sigma=E[(x-u)(x-u)^T]$ 。

下图是多变量高斯分布随着 $\Sigma$ 变化的轮廓图；
在这里插入图片描述

建模为：

$p(y)=\phi^y(1-\phi)^{1-y}\\ p(x|y=0)=\frac{1}{(2\pi)^{1/2}|\Sigma|^{1/2}}exp(-(x-u_0)^T\Sigma^{-1}(x-u_0))\\ p(x|y=0)=\frac{1}{(2\pi)^{1/2}|\Sigma|^{1/2}}exp(-(x-u_1)^T\Sigma^{-1}(x-u_1))$

对其求最大似然函数：

$L(\phi,u_0,u_1,\Sigma)=log\prod_{i=1}^mp(x^{i},y^{i};\phi,u_0,u_1,\Sigma)\\ =log\prod_{i=1}^mp(x^{i}|y^{i};u_0,u_1,\Sigma)p(y^{i};\phi)$

上面的似然也被称为 $\,\,likelihood$ ,而前面我们学习到如逻辑回归之类的算法是根据 $p (y ∣ x)$ 来建模，这类方法的似然函数形如 $L(\theta)=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)$ 称之为 $\,\,likelihood$ ， $\phi,u_1,u_2,\Sigma$ 的极大似然估计为：

$\phi=\frac{1}{m}\sum_{i=1}^{m}1\{y^{(i)}=1\}$
$\phi$ 其实就是伯努利模型中的概率，这里使用样本中标签为1的样本频率来表示。
$u_0=\frac{\sum_{i=1}^{m}1\{y^{(i)}=0\}x^{(i)}}{\sum_{i=1}^{m}1\{y^{(i)}=0\}}$
$u_0$ 其实就是所有 $y$ 标签为0的一个样本特征的平均
$u_1=\frac{\sum_{i=1}^{m}1\{y^{(i)}=1\}x^{(i)}}{\sum_{i=1}^{m}1\{y^{(i)}=1\}}$
$\Sigma = \frac{1}{m}\sum_{i=1}^{m}(x^{(i)}-u_{y_{(i)}})(x^{(i)}-u_{y_{(i)}})^T$

预测

有了上面对于参数的似然估计后，我们就可以通过他们对新输入的 $x$ 进行预测。

$arg\,\,\mathop{max}\limits_{y}\,\,p(y|x) = arg\,\, \mathop{max}\limits_{y} \,\, \frac{p(x|y)p(y)}{p(x)} = arg\,\, \mathop{max}\limits_{y}\,\, p(x|y)p(y)$ ，因为 $x$ 和 $y$ 是独立的，因此等式成立。

如果说 $p (y)$ 是平均分布的话，那么只需要求 $arg\,\, \mathop{max}\limits_{y}\,\, p(x|y)$

高斯判别分析和逻辑回归之间的联系

在这里插入图片描述

上图可以看作是高斯判别分析与逻辑回归之间的联系， $x$ 轴上左侧的x和右侧的o分别对应 $y = 0$ 和 $y = 1$ ,两个高斯曲线为 $p (x ∣ y = 0)$ 的概率密度曲线和 $p (x ∣ y = 1)$ 的概率密度曲线（这两个高斯曲线是在建模的时候拟合出来的）。现在假设又一个变量 $x$ ,需要预测其被预测为1的概率，其中黑色曲线就是拟合随着 $x$ 的变化预测 $p(y=1|x)=\frac{p(x|y=1)p(y=1)}{p(x)}=\frac{p(x|y=1)p(y=1)}{p(x|y=0)p(y=0)+p(x|y=1)p(y=1)}$ ，可以看出其大体形状类似与逻辑回归的 $s i g m o i d$ 函数的样子。

使用生成学习算法的好处与坏处

对于 $x|y\sim Guassian$ 可以推导出 $p (x ∣ y = 1)$ 的后验概率分布是一个逻辑回归。反之是不成立的。同理如果说 $\sim Possion(\lambda_1)$ 和 $x|y=0\sim Possion(\lambda_0)$ 也可以推导出 $p (y = 1 ∣ x)$ 是一个逻辑回归。这也意味 $x|y\sim Guassian$ 比 $p(y=1|x)\sim logistic$ 是一个更强的假设。

联系前面学习过的指数分布族如果 $x|y=1\sim Exp\,\,Family(\eta_1)$ 和 $x|y=0\sim Exp\,\,Family(\eta_0)$ 同样可以得出 $p (y = 1 ∣ x)$ 的后验分布是一个逻辑回归。

如果说能大概猜出数据符合高斯分布，那么使用高斯判别分析的假设作出的结果通常要好于逻辑回归。通常高斯分布的假设通常需要的样本数据更少来拟合模型，而逻辑回归相对来说作出的假设更少，需要更多的数据来拟合模型。生成学习算法作出了更强的假设，需要的数据更少。而logistic假设更弱，所以大多数场景均可使用，更为强壮。

朴素贝叶斯

现在需要做一个垃圾邮件分类器 $y\in\{0,1\}$ ,其中0表示正常邮件，而1表示垃圾邮件，如何将一封邮件表示为输入特征 $x$ 。

有一种方法是又一个邮件常用词典，这个词典的大小可能包含上百到上万个词。如 $\{a\,\,an\,\,ant\,\,\cdots buy\cdots cs229\cdots\}$ 等， $x$ 可以表示为一个向量 $x=\begin{bmatrix}1\\0\\\vdots\\1\\\vdots\end{bmatrix}$ 。我们试图模拟 $p (x ∣ y)$ ,假设词典的大小为50000，那么 $x$ 的可能结果是 $2^{50000}$ 。如果使用多项式分布来模拟 $x$ 的输出，那么需要 $2^{50000}-1$ 维参数才行，这个参数太过巨大。

为了使得模拟模型可行，我们需要做一些假设(尽管这个假设听上去可能并不合理，但是在文本实际分类应用中效果还不错)。

$A s s u m e :$ 基于 $y$ 的 $x_is$ 是条件独立的。

$x_is$ are condition independent given y

$p(x_1,x_2,\cdots,x_n|y)=p(x_1|y)P(x_2|yx_1)\cdots p(x_n|x_1x_2\cdots x_{n-1}y)\\ =p(x_1|y)p(x_2|y)\cdots p(x_n|y)=\prod_{i=1}^np(x_i|y)$

上述假设意味着知道邮件是否为垃圾邮件，各个词是没有关系的。

上面模型涉及的参数为：
$\phi_{i|y=1}=p(x_i|y=1)$
$\phi_{i|y=0}=p(x_i|y=0)$
$\phi_{y}=p(y=1)$

可以看到参数都是基于伯努利分布的因为邮件不是垃圾邮件就是正常的。

对于给定训练集 $\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)})\cdots (x^{(m)},y^{(m)})\}$ ,这些样本的联结似然函数为：
$L(\phi_y,\phi_{i|y=1},\phi_{i|y=0})=\prod_{i=1}^np(x^{(i)},y^{(i)})$

求解各个参数的最大似然值为：
$\phi_{i|y=1}=\frac{\sum_{i=1}^{m}1\{y^{(i)}=1\land x^{(i)}=1\}}{\sum_{i=1}^{m}1\{y^{(i)}=1\}}$

$\phi_{i|y=0}=\frac{\sum_{i=1}^{m}1\{y^{(i)}=0 \land x^{(i)}=1\}}{\sum_{i=1}^{m}1\{y^{(i)}=0\}}$

$\phi_y=\frac{\sum1\{y^{(i)}=1\}}{m}$

当又一个新邮件来了需要预测时使用 $p(y|x)=\frac{p(x|y=1)p(y=1)}{p(x)}= \frac{(\prod_{i=1}^{n}p(x_i|y=1))p(y=1)}{(\prod_{i=1}^{n}p(x_i|y=0))p(y=0)+(\prod_{i=1}^{n}p(x_i|y=1))p(y=1)}$

Laplace 平滑

假设新发来一封邮件中有一个词 $N I P S$ 在以往的邮件中邮件见到过，那么使用上面的公式对是否为垃圾邮件进行预测。 $p(y=1|x)=\frac{0}{0}$ ,因为 $p(x_{3000}|y=1)=0$ 且 $p(x_{3000}|y=0)=0$ （假设NIPS这个词在字典的顺序为3000）。