第五课 广泛学习算法

Generative Learning algorithms

因为我们想直接得到p(y|x),因此引入介绍Generative Learning algorithms。
根据贝叶斯准则,我们可以对分类问题分析建立模型:
这里写图片描述
我们的最终的分类结果是选择后验概率最大的y
这里写图片描述

1.Gaussian discriminant analysis
1.1 The multivariate normal distribution

The multivariate normal distribution也叫作The multivariate Gaussian distribution,是一个n维高斯分布,表达式如下:
这里写图片描述
上式中每个参数的物理含义不再介绍,参考notes2。

1.2 The Gaussian Discriminant Analysis model

对于输入x为连续的随机变量,我们可以建立如下模型:
这里写图片描述
这里写图片描述
因此log-likelihood函数为:
这里写图片描述
对该函数最大化求得参数为:
这里写图片描述
该结果可形象地通过下图表达:
这里写图片描述
通过上图可以看出,两个高斯分布的边缘具有相同的形状和方向,因为他们的协方差矩阵相同。图中标出的直线为分界线。

1.3 Discussion: GDA and logistic regression

p(y=1|x;ϕ;μ0;μ1;) 改写为关于x的函数,我们可以发现可以改写为如下形式:
这里写图片描述
这正是logistic regression—–一种discriminative algorithm的形式
GDA和逻辑回归对于相同的数据集,通常会给出不同的分界,我们应该如何选取模型?总结如下:
首先我们考虑到,如果输入满足高斯分布的假设,那么GDA一定可以用逻辑回归表示,反之则不成立,因为逻辑回归包含了一族分布。因此GDA需要更强的假设。当数据严格满足高斯分布时,我们倾向于选择GDA模型,因为计算十分高效;相反如果数据不严格满足我们的假设,即不是高斯分布,那么逻辑回归模型根据鲁棒性。因此在实际应用中逻辑回归用的更加多些。

2.Naive Bayes

我们将要讨论输入 xi 为离散值时的情况,notes里面拒了判断垃圾邮件的例子,这里偷点懒不再赘述,只说定义和结论。
Naive Bayes (NB) assumption: xi are conditionally independent given y,即对于给定的y,x的分布是条件独立的(根据英文自行理解)。
对于基于朴素贝叶斯假设的算法,成为朴素贝叶斯分类器Naive Bayes classi er。
基于该种假设下的 likelihood函数为:
这里写图片描述
最大化上式得到:
这里写图片描述
对于需要预测的数据x,我们只需要计算:
这里写图片描述
然后挑选具有更大后验概率的类别。

2.1 Laplace smoothing

为了避免出现样本中没有的数据,导致后验概率出现0/0无法求后验概率的情况,我们引入Laplace smoothing。引入该方法后的参数计算如下:
这里写图片描述
k为变量的取值个数,当只可以取两个值时,k=2。

2.2 Event models for text classi cation

在这里需要搞清楚themulti-variate Bernoulli event model和 the multinomial event model两个模型的区别(实际上也就是伯努利分布和多项分布的区别),在notes中的垃圾邮件分类的实例有很好的说明,有助于理解。在notes例子中注意要搞清输入变量发生了变化,要明白两个模型表达上的不同。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值