判别模型和生成模型(cs229 part 4)

摘要:
判别模型:

有限样本--->判别函数--->预测模型 --->预测

分析:对条件概率(后验概率) p(y|x) 建模,在有限样本下建立判别函数,不考虑样本的产生模型,直接研究预测模型。

生成模型:

无穷样本--->概率密度模型--->产生模型 --->预测

分析:对 p(x|y) 进行建模。首先建立样本的概率密度模型,再利用模型进行推理预测,要求已知样本无穷或者尽可能的大。

判别模型
根据特征值来求结果的概率,形式化为 p(y|x;θ) , 通俗解释就是在给定特征后预测结果出现的概率。

考虑一个分类问题,我们想要基于提取到的特征区分大象(y=1)和狗(y=0),给定一个数据集,常见的算法(logistic回归和感知器算法)都是去寻找一个决策面 来分开两种动物。对于一个新的样本,看它落在决策面的哪一边来进行预测。

对于判别模型 来说: 首先,对于大象,可以根据大象的特征学习到一个大象模型,接着,对于狗,学习到一个狗模型,最后,对一个新动物,分别放到两个模型中,来比较两个模型输出概率的大小。


直接学习 p(y|x;θ) 的算法(如逻辑回归),或者直接学习特征到标签的映射函数的算法(感知器算法),我们称之为:判别式学习算法

—————————————————————————
对于求 p(x|y) 的算法(似然函数),我们称之为生成式学习算法

利用贝叶斯公式可以将两个模型统一起来:

p(y|x)=p(x|y)p(y)p(x)

我们这里只关注y的离散值哪个概率较大,而不是关注具体的概率值,对于分母 p(x) 不必要去关心,则上式等价于:

argmaxy(p(y|x))=argmaxy(p(x|y)p(y)p(x))=argmaxy(p(x|y)p(y))

其中, p(y|x) 称为后验概率, p(y) 称为先验概率。
另外: p(x|y)p(y)=p(x,y) , 因此,有时候称:
判别模型求的是条件概率,生成模型求的是联合概率
常见的判别模型:
【线性回归、对数回归、线性判别分析、SVM、boosting、NN、条件随机场、神经网络等】
常见的生成模型
【隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、波兹曼机】

优缺点:
判别模型:
主要特点:寻找不同类别之间最优分类面,反映的是异类数据之间的差异。
优点: 分类面更灵活,比使用纯概率方法或产生模型得到的更高级。能更清晰的分辨出某一类与其它类之间的差异特征,适用于多类别的识别。
缺点:不能反映训练数据本身的特性,能力有限,可以告诉你结果是1还是2,但不能将整个场景描述出来,黑盒操作,不可视。

生成模型:
一般主要是对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。
优点:
实际上带的信息比判别模型丰富。
能用于数据不完整的情况。
缺点:
学习和计算过程较为复杂。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值