分类——生成模型

最新推荐文章于 2023-11-10 11:11:43 发布

Caaaaaan

最新推荐文章于 2023-11-10 11:11:43 发布

阅读量1.6k

点赞数 10

分类专栏： AIStudy

本文链接：https://blog.csdn.net/Hacker_ccc/article/details/127078228

版权

AIStudy 专栏收录该内容

19 篇文章 4 订阅

订阅专栏

分类：概率生成模型

Classification: Probabilistic Generative Model

回归做分类？NO！

——用Regreesion强制做Classification

——NO！！！！

以二分类举例的情况下，如果回归的数值越接近于1，则我们认为是正类；否则为负类。

在这样的训练集上进行回归，某种程度上是能够拟合出一个较好的分界，使得上述成立。

但是，也有可能是，属于某个正类的回归预测值非常非常大，这样的情况下，它会error地得到另一个分界

因为回归定义分界的好坏是(Loss Function)，是点到线的距离差的平方和（某种Loss Function）

而这种定义对分类来说，是不适用的

在这里插入图片描述

而且，这种情况下，相当于默认了某种Class的关系

比如，在多分类问题里：

——我们将Class 1 means the target is 1; Class 2 means the target 2;Class 3 means the target 3;…

在这种情况下，我们有可能会认为第二类与第三类比较近，第四类和第三类比较远，但实际上，我们的类上并不存在这样的关系。

做法

Function(Model)

输入x后，若f(x)>0 则输出类型1；否则输出类型2
Loss Function
$L(f)=\sum_n\delta(f(x^n)\neq \hat{y}^n)$
我们希望它预测错误的次数越少越好
Find the best function:
- Example:Perceptron,SVM

在这里插入图片描述

生成模型

利用条件概率——贝叶斯公式进行分类

假设给我一个x，那么这个x属于Class 1的几率就为
$P(C_1|x)=\frac{P(C_1*x)}{P(x)}=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}$
属于哪个类的概率越大，则x属于这个类

——如何得到 $P(x|C_1)$

高斯分布

假设说，我们没有见过这个x，那么在训练集上，这个 $P(x|C_1)$ 的概率就是显而易见为0——这是不正确的！

因为这个x其实是——特征向量（A feature vector）

我们可以理解为——我们的训练集是，从一个Gaussian的分布里（也可能是别的分布），采样出来的点，我们通过研究采样的点，来找到Gaussian的分布

——高斯分布（即正态分布）——也可能是别的密度分布函数

——本质上，我们输入一个vector(特征向量)，那么在分布里，我们就能找到，采样到这个向量的可能性（即分布中常提到的密度分布）

输入：vector x
输出：Sampling x的可能性

这个分布函数的形状，取决于mean $\mu$ 和 covariance matrix $\Sigma$

——即取决于均数和协方差矩阵

——注意，这里的均数 $\mu$ 也是一个vector

$f_{\mu,\Sigma}(x)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

在这里插入图片描述

如何找到 $\mu$ 和 $\Sigma$

Maximum Likelihood

比如你有79个点，那么就这个分布采样出这79个点的概率是最大的

——Likelihood Function

$L(\mu,\Sigma)=f_{\mu,\Sigma}(x_1)f(x_2)...f(x_{79})$

我们希望找到 $\mu^{*},\Sigma^*$ , 使得 $arg\max_{\mu,\Sigma}L(\mu,\Sigma)$
$\mu^*=\frac{1}{79}\sum_{n=1}^{79}x^n\\ \Sigma^*=\frac{1}{79}\sum_{n=1}^{79}(x^n-\mu^*)(x^n-\mu^*)^T$
在这里插入图片描述

Why Called 生成模型

我们可以计算出每个x出现的概率，我们就知道每一个x的分布，我们就可以用这个分布来产生x,采样x
$P(x)=P(x|C_1)P(C_1)+P(x|C_2)P(C_2)$
——全概率公式

修改模型

不同的类其实可以共用一个协方差矩阵

——因为协方差矩阵和特征size的平方成正比

因此协方差矩阵的增长非常快，如果不同的类给予不同的协方差矩阵

那么Model的参数过多，参数太多则Variance就大，那么就容易overfitting

How to Calculate

Find $\mu^1,\mu^2,\Sigma$ maximizing the likelihood $L(\mu^1,\mu^2,\Sigma)$
$L(\mu^1,\mu^2,\Sigma)=f_{\mu^1,\Sigma}(x^1)f_{\mu^1,\Sigma}(x^2)...f_{\mu^1,\Sigma}(x^{79})*f_{\mu^2,\Sigma}(x^{80})...f_{\mu^2,\Sigma}(x^{140})$

$\mu^1,\mu^2=\frac{1}{79}\sum_{n=1}^{79}x^n\\$

$\Sigma=\frac{79}{140}\Sigma^1+\frac{61}{140}\Sigma^2$

在这里插入图片描述

——选用所有特征之后的结果

在这里插入图片描述

朴素贝叶斯做法

在这里插入图片描述

不同模型的选择

——你永远可以选择你喜欢的

你选择参数少的——Bias大，Variance小

你选择参数多的——Bias小，Variance大

——对于二值特征，你不会假设它为高斯分布，因为没有办法使得它合理

而是假设其为伯努利分布

——假设所有的特征都是独立同分布的很切合实际

那么朴素贝叶斯就会表现得非常好

后验概率

$P(C_1|x)=\frac{P(C_1*x)}{P(x)}=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}\\ =\frac{1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}=\frac{1}{1+exp(-z)}=\sigma(z)$