贝叶斯分类器

本文总结了贝叶斯分类器的基本原理,包括先验和后验概率、风险评估、朴素贝叶斯的条件独立性假设、参数估计以及平滑技术。重点介绍了其在文本分类中的应用,如垃圾邮件过滤和情感分析,以及如何通过计算最大后验概率进行预测。
摘要由CSDN通过智能技术生成

看了下贝叶斯分类器,写个小总结吧!


前言

贝叶斯在文本分类中的应用:垃圾邮件分类;新闻报道分类;情感极性分类

一、先验概率

先验概率反应我们在实际观察中对某种症状的预测。记作p(yi)
在这里插入图片描述
决策规则是基于输入采取的特定行动。(基于先验的决策是有效但是灵活性,准确性还是有局限性。给出的是同样的预测,没有考虑到个体;先验概率均匀也效果不佳)

二、后验概率

1.引入特征

特征:观测变量
特征空间:进行观测值采样的空间

2.后验概率

后验概率:给定观测向量x,某个特定类别的概率P(y/x)
贝叶斯定理:
在这里插入图片描述
我们希望最大后验概率(MAP)的类别作为预测结果y=argmacP(yi/x)*
在这里插入图片描述

三、风险

在这里插入图片描述
可以打球,那么可以打球就是我们的风险。意思就是决策为一个,则另外的一个较小的就是我们的犯错。
犯错之后我们会带来损失
不同的错误带来的损失可能不同,记作人ij。
条件风险
在这里插入图片描述
每个样本最佳,是贝叶斯分类的最佳。

四、朴素贝叶斯

关键是做了一个条件独立性假设在这里插入图片描述
在这里插入图片描述
实际上做的只对分子做评估就可以了。
在这里插入图片描述
先验概率实际上就是ck类别的占比除以总的样本个数N
条件概率实际上就是类别为ck的情况下,x的取值为 某个数的次数除以总的为ck的次数。
参数估计
1.学习;计算先验概率和条件概率
2.测试;算先验概率的最大概率的似然估计
3.确定x的类别;算最优分类,作为y的取值在这里插入图片描述

五、平滑

使得概率不为零,而是一个极小的值。每个
在这里插入图片描述
在这里插入图片描述

Sj就是说在第J个维度上特征的可能取值个数。
K是类别的个数。(yes no这种类别)
连续特征采用统计看他是符合某种分布的,然后也可以计算。
在这里插入图片描述
在进行文本分类时我们首先应该去除停用词和词干提取停用词(携带信息量极为少)词干提取(对词语去除词缀,从而得到词干的过程)对于分类器而言,需要找出积极与消极那个标签的概率更大,所以可以去除相同的除数,即比较两者的分子。

参考:b站up:山he大海

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值