任务256: 有向图与无向图模型
有向图每个条件概率只依赖局部
无向图每个条件概率依赖全局
任务257: 生成模型与判别模型
01 基本概念
假设我们有训练数据(X,Y),X是属性集合,Y是类别标记。这时来了一个新的样本样本 x ,我们想要预测它的类别y。
我们最终的目的是求得最大的条件概率 P(y|x)作为新样本的分类。
- 判别式模型这么做
根据训练数据得到分类函数和分界面,比如说根据SVM模型得到一个分界面,然后直接计算条件概率 P(y|x),我们将最大的 P(y|x)。
作为新样本的分类。判别式模型是对条件概率建模,学习不同类别之间的最优边界,无法反映训练数据本身的特性,能力有限,其只能告诉我们分类的类别。
- 生成式模型这么做
一般会对每一个类建立一个模型,有多少个类别,就建立多少个模型。比如说类别标签有{猫,狗,猪},那首先根据猫的特征学习出一个猫的模型,再根据狗的特征学习出狗的模型,之后分别计算新样本X跟三个类别的联合概率 P(y|x),然后根据贝叶斯公式:
分别计算 P(y|x),选择三类中最大的 P(y|x)作为样本的分类。
- 两个模型的小结
不管是生成式模型还是判别式模型,它们最终的判断依据都是条件概率 P(y|x),但是生成式模型先计算了联合概率P(x,y),再由贝叶斯公式计算得到条件概率。因此,生成式模型可以体现更多数据本身的分布信息,其普适性更广。
02 用例子说明概念
- 山羊绵羊的例子
判别式模型:要确定一个羊是山羊还是绵羊,用判别式模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。
生成式模型:是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。
任务258: Log-Linear Model
任务260: CRF介绍
任务261: Inference问题
任务262: 参数估计