【CS229机器学习】 Lecture6:多项事件模型与文本分类,关于SVM的函数裕度与几何裕度

本文介绍了CS229课程中的多项事件模型在文本分类中的应用,讨论了朴素贝叶斯模型的局限性和改进方法。接着,深入讲解了支持向量机(SVM)的裕度概念,包括函数裕度和几何裕度,为理解SVM的决策边界和分类信心提供了直观解释。
摘要由CSDN通过智能技术生成

接上次:https://blog.csdn.net/cyr429/article/details/102873031


2.3 多项事件模型与文本分类

之前讨论了将朴素贝叶斯运用于多元伯努利分布来实现文本分类的问题,但是这个模型有个问题就是不会统计某个词在一封邮件中出现的次数,所以我们考虑另一种模型。

首先改变的是表示一封邮件的方式,之前我们用0011000...这样的布尔向量表达一封邮件,序列中0或1的位置对应词汇中相应单词的位置,而这里则是则是使用一组d维整型向量x=(x1,..,xd)。d是这封邮件的长度,xj是这封邮件第j个单词的identity,如果xj位置的单词是词汇表中的第k个单词,则xj=k,所以x的取值范围是词汇集的大小,xj取值于{0,1,...,|V|}, |V|是词汇集的大小。

现在有了特征向量,我们需要建立一个生成模型,那么我们就需要为p(x|y)建模。和前一部分一样,如果词汇中有50000个单词,而要处理的邮件由100个单词组成,那么在多项分布的模型中就有产生50000^100种输出,那么我们就需要50000^100-1维度的参数向量,实在是太多了。

所以朴素贝叶斯假设就又派上用场了:

如果我们有一个训练集,其中xi=,di是第i个训练样本邮件中单词总数,那么对数似然函数就是:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值