贝叶斯文本分类python_python编写朴素贝叶斯用于文本分类

朴素贝叶斯估计

朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法。首先根据特征条件独立的假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。

具体的,根据训练数据集,学习先验概率的极大似然估计分布

以及条件概率为

Xl表示第l个特征,由于特征条件独立的假设,可得

条件概率的极大似然估计为

根据贝叶斯定理

则由上式可以得到条件概率P(Y=ck|X=x)。

贝叶斯估计

用极大似然估计可能会出现所估计的概率为0的情况。后影响到后验概率结果的计算,使分类产生偏差。采用如下方法解决。

条件概率的贝叶斯改为

其中Sl表示第l个特征可能取值的个数。

同样,先验概率的贝叶斯估计改为

$$

P(Y=c_k) = \frac{\sum\limits_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}

$K$

表示Y的所有可能取值的个数,即类型的个数。

具体意义是,给每种可能初始化出现次数为1,保证每种可能都出现过一次,来解决估计为0的情况。

文本分类

朴素贝叶斯分类器可以给出一个最有结果的猜测值,并给出估计概率。通常用于文本分类。

分类核心思想为选择概率最大的类别。贝叶斯公式如下:

词条:将每个词出现的次数作为特征。

假设每个特征相互独立,即每个词相互独立,不相关。则

完整代码如下;

import numpy as np

import re

import feedparser

import operator

def loadDataSet():

postingList=[['my

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值