贝叶斯文本分类python_python编写朴素贝叶斯用于文本分类

最新推荐文章于 2024-05-13 08:23:36 发布

weixin_39821718

最新推荐文章于 2024-05-13 08:23:36 发布

阅读量308

点赞数

文章标签：贝叶斯文本分类python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39821718/article/details/111740402

版权

朴素贝叶斯估计

朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法。首先根据特征条件独立的假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

具体的，根据训练数据集，学习先验概率的极大似然估计分布

以及条件概率为

Xl表示第l个特征，由于特征条件独立的假设，可得

条件概率的极大似然估计为

根据贝叶斯定理

则由上式可以得到条件概率P(Y=ck|X=x)。

贝叶斯估计

用极大似然估计可能会出现所估计的概率为0的情况。后影响到后验概率结果的计算，使分类产生偏差。采用如下方法解决。

条件概率的贝叶斯改为

其中Sl表示第l个特征可能取值的个数。

同样，先验概率的贝叶斯估计改为

$$

P(Y=c_k) = \frac{\sum\limits_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}

$K$

表示Y的所有可能取值的个数，即类型的个数。

具体意义是，给每种可能初始化出现次数为1，保证每种可能都出现过一次，来解决估计为0的情况。

文本分类

朴素贝叶斯分类器可以给出一个最有结果的猜测值，并给出估计概率。通常用于文本分类。

分类核心思想为选择概率最大的类别。贝叶斯公式如下：

词条：将每个词出现的次数作为特征。

假设每个特征相互独立，即每个词相互独立，不相关。则

完整代码如下;

import numpy as np

import re

import feedparser

import operator

def loadDataSet():

postingList=[['my

最低0.47元/天解锁文章

weixin_39821718

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯文本分类python_python编写朴素贝叶斯用于文本分类

朴素贝叶斯估计朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法。首先根据特征条件独立的假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。具体的，根据训练数据集，学习先验概率的极大似然估计分布以及条件概率为Xl表示第l个特征，由于特征条件独立的假设，可得条件概率的极大似然估计为根据贝叶斯定理则由上式可以得到条件概率P(Y=ck|X=x...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。