《机器学习实战》学习笔记第四章-朴素贝叶斯

目录

贝叶斯决策理论

进行文本分类

准备数据:从文本中构建词向量

训练算法:从词向量计算概率

测试算法:根据现实情况修改分类器

 文档词袋类型

使用贝叶斯过滤垃圾邮件


贝叶斯决策理论

比较一个确定的点属于不同类别的概率,哪个概率大,属于哪一类。

优点:在数据较少的情况下仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

适用数据类型:标称型数据

一般过程:

1.收集数据

2.准备数据:需要数值型或布尔型数据

3.分析数据:有大量特征时,使用直方图效果更好

4.训练算法:计算不同的独立特征的条件概率

5.测试算法:计算错误率

6.使用算法:一个常见的朴素贝叶斯应用是文档分类。

贝叶斯公式:

P(A|B)= \frac{P(B|A)}{P(B)}P(A)

  • P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率,表示事件B发生后,事件A发生的置信度。
  • P(A)是A的先验概率或边缘概率,表示事件A发生的置信度。
  • P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率,也被称作似然函数。
  • P(B)是B的先验概率或边缘概率,称为标准化常量。
  • P(B|A)P(B)称为标准似然比,表示事件B为事件A发生提供的支持程度。

最大似然估计:完全从样本入手,使得观测数据(样本)发生概率最大的参数,即P(X|θ)最大的参数θ就是最好的参数,如抛硬币10次6次正,最大似然估计认为抛一次为正的概率为0.6

最大后验概率估计:事先知道抛硬币为正的概率是0.5,认为使P(X|θ)P(θ)取最大值的θ就是最好的θ,因此以0.5和最大似然估计计算得到θ=0.57

贝叶斯估计:在最大后验估计的基础上,不是估计θ的值,而是估计一个范围,约为0.5625

参考自:贝叶斯估计、最大似然估计、最大后验概率估计 | SnailTyan (noahsnail.com)

进行文本分类

要从文本中获取特征,需要先拆分文本。具体的特征词条可以是URL、IP地址或者任意字符串,1表示词条出现,0表示未出现。

准备数据:从文本中构建词向量

从文本中构建词向量,将句子转化成向量。

以在线社区留言板为例,我们要屏蔽侮辱性言论,侮辱类词汇为1,非侮辱类为0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值