利用计算机程序求补集,基于补集特征的贝叶斯文档分类方法、装置、设备及介质与流程...

本文介绍了一种新颖的文档分类方法,利用预标注文档计算特征词权重,通过补集特征计算最大似然概率,确定文档类别。核心步骤包括分词处理、权重计算、概率评估和类别决定。方法涉及Python的jieba分词,以及权重和似然概率的具体公式。
摘要由CSDN通过智能技术生成

技术特征:

1.一种基于补集特征的贝叶斯文档分类方法,其特征在于,包括:

对待分类文档进行分词处理,并确定所述待分类文档的特征词;

基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;

根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;

根据所述最大似然概率确定所述待分类文档的归属类别。

2.根据权利要求1所述的方法,其特征在于,所述基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重,包括:

按照如下公式计算所述待分类文档中每个特征词的权重:

201811146775_2.html

其中,wordij表示待分类文档i中特征词j的权重,wij表示待分类文档i中的特征词j,wkj表示文档语料中第k篇文档中的特征词j,

201811146775_2.html表示特征词wij在待分类文档i中出现的次数,

201811146775_2.html表示特征词wkj在第k篇文档中出现的次数,N表示文档语料中文档的总数,

201811146775_2.html表示文档语料中包含特征词wij的文档总数,

201811146775_2.html表示文档语料中包含特征词wkj的文档总数,所述文档语料中包含至少两个类别,每个类别下包含至少一个文档。

3.根据权利要求2所述的方法,其特征在于,所述根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率,包括:

按照如下公式计算所述待分类文档中每个特征词属于各类别的最大似然概率:

201811146775_2.html

其中,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,dk表示文档语料的第k篇文档,wordkj表示特征词wij在文档dk中的权重,k表示文档语料中文档的序号,

201811146775_2.html表示文档语料中包含特征词wij的文档总数,NC表示文档语料中包含的类别总数,wordkq表示文档语料的第k篇文档中第q个特征词的权重,q表示单篇文档中特征词的序号,Nq表示文档语料的第k篇文档中特征词的总数,N表示文档语料中文档的总数,

201811146775_2.html表示特征词wij在除类别C之外其他类别的文档中的权重和,

201811146775_2.html表示除类别C之外其他类别的文档中所有特征词的权重和。

4.根据权利要求3所述的方法,其特征在于,所述根据所述最大似然概率确定所述待分类文档的归属类别,包括:

根据所述最大似然概率确定所述待分类文档归属各类别的归属概率;

将所述归属概率中的最小值对应的类别确定为所述待分类文档的归属类别。

5.根据权利要求3所述的方法,其特征在于,所述根据所述最大似然概率确定所述待分类文档归属各类别的归属概率,包括:

按照如下公式确定所述待分类文档归属各类别的归属概率:

201811146775_2.html

其中,P(C|i)表示待分类文档i归属除类别C之外其他类别的归属概率,p(C)表示类别C在文档语料中出现的概率,

201811146775_2.htmlN表示文档语料中文档的总数,NC表示属于类别C的文档总数,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,m表示待分类文档i中特征词的总数,p(wij)表示特征词wij在文档语料中出现的概率。

6.根据权利要求5所述的方法,其特征在于,按照如下公式确定所述归属概率中的最小值:

P(C|i)min=min{P(C|i)|C∈CO}

其中,CO表示文档语料中所有类别构成的集合。

7.根据权利要求1所述的方法,其特征在于,所述对待分类文档进行分词处理,并确定所述待分类文档的特征词,包括:

利用python中的jieba分词工具对待分类文档进行分词处理,并去除停用词,得到所述待分类文档的特征词。

8.一种基于补集特征的贝叶斯文档分类装置,其特征在于,所述装置包括:

分词模块,用于对待分类文档进行分词处理,并确定所述待分类文档的特征词;

权重计算模块,用于基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;

最大似然概率计算模块,用于根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;

类别确定模块,用于根据所述最大似然概率确定所述待分类文档的归属类别。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的基于补集特征的贝叶斯文档分类方法。

10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7中任一项所述的基于补集特征的贝叶斯文档分类方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值