目录
贝叶斯决策理论
比较一个确定的点属于不同类别的概率,哪个概率大,属于哪一类。
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据
一般过程:
1.收集数据
2.准备数据:需要数值型或布尔型数据
3.分析数据:有大量特征时,使用直方图效果更好
4.训练算法:计算不同的独立特征的条件概率
5.测试算法:计算错误率
6.使用算法:一个常见的朴素贝叶斯应用是文档分类。
贝叶斯公式:
- P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率,表示事件B发生后,事件A发生的置信度。
- P(A)是A的先验概率或边缘概率,表示事件A发生的置信度。
- P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率,也被称作似然函数。
- P(B)是B的先验概率或边缘概率,称为标准化常量。
- P(B|A)P(B)称为标准似然比,表示事件B为事件A发生提供的支持程度。
最大似然估计:完全从样本入手,使得观测数据(样本)发生概率最大的参数,即P(X|θ)最大的参数θ就是最好的参数,如抛硬币10次6次正,最大似然估计认为抛一次为正的概率为0.6
最大后验概率估计:事先知道抛硬币为正的概率是0.5,认为使P(X|θ)P(θ)取最大值的θ就是最好的θ,因此以0.5和最大似然估计计算得到θ=0.57
贝叶斯估计:在最大后验估计的基础上,不是估计θ的值,而是估计一个范围,约为0.5625
参考自:贝叶斯估计、最大似然估计、最大后验概率估计 | SnailTyan (noahsnail.com)
进行文本分类
要从文本中获取特征,需要先拆分文本。具体的特征词条可以是URL、IP地址或者任意字符串,1表示词条出现,0表示未出现。
准备数据:从文本中构建词向量
从文本中构建词向量,将句子转化成向量。
以在线社区留言板为例,我们要屏蔽侮辱性言论,侮辱类词汇为1,非侮辱类为0