网易笔试题
生成模型和判别模型
生成模型: 由数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后利用贝叶斯定理 P ( Y ∣ X ) = P ( X , Y ) / P ( X ) P(Y|X)=P(X,Y)/P(X) P(Y∣X)=P(X,Y)/P(X),求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测的模型。基本思想是首先建立样本的联合概率密度模型 P ( X , Y ) P(X,Y) P(X,Y),然后再得到后验概率 P ( Y ∣ X ) P(Y|X) P(Y∣X),再利用它进行分类。这个过程中还得先求出 P ( X ) P(X) P(X), P ( X ) P(X) P(X) 是训练数据的概率分布。当数据样本非常多的时候,得到的 P ( X ) P(X) P(X) 才能很好的描述数据真正的分布。典型的生成模型有朴素贝叶斯法和隐马尔可夫模型。
判别模型:由数据直接学习条件概率(后验概率)分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测的模型。判别方法关心的是对给定的输入 X X X ,应该预测什么样的输出 Y Y Y。 不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括 k k k 近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
生成模型优点:
- 生成模型可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y);
- 生成模型收敛速度比较快,即当样本数量较多时,生成模型能更快地收敛于真实模型;
- 生成模型能够应付存在隐变量的情况,比如混合高斯模型就是含有隐变量的生成方法。
生成模型缺点:
- 需要更多的样本和更多计算;
- 实践中多数情况下判别模型效果更好。
判别模型优点:
-
与生成模型缺点对应,首先是节省计算资源,另外,需要的样本数量也少于生成模型;
-
判别模型直接学习的是条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X),直接面对预测,往往学习的准确率更高;
-
由于直接学习 P ( Y ∣ X ) P(Y|X) P(Y∣X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
判别模型缺点:
- 没有生成模型的优点。
参考《统计学习方法》