李宏毅机器学习笔记-生成模型和逻辑回归

目录

概率生成模型

分类问题实例

模型改进

生成模型步骤总结

后验概率的数学推导

逻辑回归

逻辑回归步骤

逻辑回归和线性回归的比较

为什么不使用MSE 

判别模型 VS 生成模型

多分类

逻辑回归的限制

补充:生成式模型和判别式模型


概率生成模型

概率生成模型,简称生成模型(Generative Model),是概率统计和机器学习中的一类重要模型,指一系列用于随机生成可观测数据的模型 。生成模型的应用十分广泛,可以用来不同的数据进行建模,比如图像、文本、声音等。比如图像生成,将图像表示为一个随机向量X,其中每一维都表示一个像素值。假设自然场景的图像都服从一个未知的分布pr(x),希望通过一些观测样本来估计其分布。也就是说,生成模型考虑的是:生成样本数据的模型是什么样的(也就是样本数据具体满足什么分布/样本会以多大的概率被生成)。生成模型可以和贝叶斯概率公式进行结合,用于分类问题。

假设训练数据中有两个类别,每个类别下有5个样本,想要知道新的测试样本x属于C1类别的可能性,根据贝叶斯概率公式可以得到下图所示的概率公式。

其中,P(C1)和P(C2)表示在训练数据中,随机采样得到C1或者C2的概率,即两个类别在训练数据中所占的比重,可以由训练数据中的统计结果计算得到。分母项P(x)表示生成数据x的概率,此处可以由生成模型计算得到:P(x) = P(x|C1)P(C1) + P(x|C2)P(C2),因为有两个类别,每个类别下的数据具有不同的规律,服从不同的分布,都有可能生成数据x,所以相加得到生成x的概率(这里计算生成样本数据x的概率就是生成模型在做的事情)。

难点在于如何计算P(x|C1)和P(x|C2)。这里使用的方法是:极大似然估计。

极大似然估计就是先假设生成数据(数据分布)的模型已知(比如高斯分布),但是模型的具体参数不知(不知道高斯分布中的均值和标准差),通过已有的数据,反推最有可能(最大概率)导致这样结果的参数值。经过极大似然估计之后,可以得到每个类别下的数据满足的规律(即每个类别下的数据满足什么样的分布),那么我们就可以知道在每个类别的分布下,分别生成新的测试数据x的概率,也就是P(x|C1)和P(x|C2)。因此,我们就可以计算得到新的测试数据x属于每个类别的概率P(C1|x)和P(C2|x)。

分类问题实例

下面通过一个具体的问题情境,展示生成模型用于分类问题的过程。

给定一个神奇宝贝,判断其是 水系 的还是 一般系 的,每个神奇宝贝用一个向量来表示,向量的维度就是他们的各种特征,这个也叫做特征向量

 1、使用两个类别的宝可梦构成训练数据,分别是水系(Water)和正常系(Normal),训练集中有79个水系的,61个一般系的。P(C1)和P(C2)被称为先验概率

 2、根据贝叶斯概率公式,接下来需要计算P(x|C1)和P(x|C2),也就是分析每个类别下的数据分布规律。

把训练数据中水系宝可梦的防御力和特殊防御力的散点图画出来,每一个点代表一个水系的神奇宝贝,假设数据的分布符合高斯分布。

海龟是训练集中未出现过的,但是我们不能说从下面的分布中挑到海龟的概率P(xturtle|Water)是0。这个时候我们如何给出从水系的神奇宝贝里面挑到海龟的概率?我们可以认为训练集中的79个水系的神奇宝贝是从一个高斯分布中采样得到的,若能知道这个高斯分布我们就能给出 P(xturtle| Water),所以现在的问题变为如何通过训练集来找到这样的高斯分布。

 3、由极大似然估计法,计算得到高斯分布的参数(均值和标准差)。

高斯模型是概率密度函数,跟概率成正比的,暂时可以理解为是概率,因为是二维的,所以原本是方差变成了协方差矩阵

 不同的μ,∑会产生不同的分布,可以发现μ表示分布的偏移,也就是几率分布最高点不一样

 而∑表示分布的形状,应该说是分散程度:

若是我们能从训练数据集中知道 μ和∑,如下图我们就能写出该分布的式子,那么任意给定一个x,我们都能拿到在该分布下采样出 x 的概率。黑色的New x就是海龟,虽然离的远,但是也是有概率,只是非常小,当然如果在中心,也就是 x = μ那就是最大的

这79个点可以从任何一个高斯分布中采样得到,比如下图的两个红圈,因为高斯分布中采样出的点可以是空间中的任何点,只是有些地方几率高有些地方几率低,但是不存在几率精确为0的地方。右上角的高斯分布也能抽样出这79个点,不过几率很低;左下角的分布抽样出这79个点的概率就比较高了。

怎么去估计 μ ,∑呢,就要用到极大似然估计,找到一个分布使得它抽样这79个点的概率最大。因为79个样本相互独立,所以这个概率就可以变成乘积的形式,假设这79个样本是来自参数为  (μ∗,∑∗)的高斯分布的可能性最大,取对数,然后求导=0,可以算出这两个的估计值


结果如下,两个类别的参数:

<
  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值