sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯

最新推荐文章于 2024-09-17 14:42:37 发布

weixin_39793564

最新推荐文章于 2024-09-17 14:42:37 发布

阅读量95

点赞数

文章标签： sklearn朴素贝叶斯分类器

一、概率公式：
- 条件概率公式：

- - 事件A发生的条件下，事件B发生的概率=事件A和事件B同时发生的概率/事件A发生的概率
  - P(AB)=P(A)*P(B|A)
    - 事件A和事件B同时发生的概率=事件A发生的概率*事件A发生的条件下，事件B发生的概率

- 全概率公式：

- - 如果事件A1 A2 A3构成了必然事件Ω，且3个A事件相互独立，并且A1 A2 A3都是有可能发生的。那么对于该必然事件Ω中的事件B如图：
    - 事件B发生的概率 =求和：事件A发生的概率*事件A发生的条件下事件B发生的概率（如图：椭圆B等于它被事件A划开的3部分的和）

- - 全概率公式可以理解为拼接部分求整体，而贝叶斯公式理解为拆分整体求某一部分。如下：

- 贝叶斯公式：（逆全概率公式）

- 以A1为例，P(A1|B)表示事件B发生条件下A1发生的概率，那么需要知道事件B发生的概率作为分母（因为事件B不发生，他们就不会有同时发生），事件A1和B同时发生的概率作为分子。
  - P(B)带入全概率公式
  - P(A1B)带入条件概率公式的变形

- 得到贝叶斯公式

二、朴素贝叶斯
- 定义：
  - 在机器学习中，朴素贝叶斯分类器是一系列以假设特征之间强独立（朴素）下运用贝叶斯定理为基础的简单概率分类器。
  - 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）
  - 高度可扩展的，求解过程只需花费线性时间

- 应用：朴素贝叶斯在文本分类（text classification）的领域的应用多，无论是sklearn还是 Spark Mllib中，都只定制化地实现了在文本分类领域的算法。
  - 案例理解：根据肤色（黑，黄），头发（卷，直）预测人是属于亚洲还是非洲地区。
  - 朴素：假设特征间是独立的（忽略肤色和发型的联系）。从而变成了“低配版的贝叶斯模型”，称为“朴素贝叶斯”。
    - 优点是可以减少需要估计的参数的个数；缺点是会牺牲一定的分类准确率。 2*2*2
    - 贝叶斯模型的参数数量是指数型的；而朴素贝叶斯的参数数量是线性的。2*（2+2）
    - 朴素贝叶斯计算公式：

- - 拉普拉斯平滑：
    - 由于朴素贝叶斯公式中有一个缺陷：当某一个参数的概率值为0时，整个计算结果会为0，从而影响到预测结果。

- - - 以上图为例：在分子上加一个 λ，分母用标签数乘以 λ，这是为了保证‘亚洲’概率+‘非洲’概率的计算结果是1
    - 在随机变量各个取值的频数上赋予一个正数，当值，称为拉普拉斯平滑。

三、特征工程—词频统计
- （一）TF （Term Frequency 词频）
  - TF 词频,表示一个单词在文本中出现的频率，一般认为出现频率越高，该单词越重要。
  - TF一般会归一化处理用以防止它偏向更长的文件：TF= 词频 / 文本总的单词数

- （二）TF- IDF （Inverse Document Frequency 逆向词频)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。