技术特征:
1.一种基于补集特征的贝叶斯文档分类方法,其特征在于,包括:
对待分类文档进行分词处理,并确定所述待分类文档的特征词;
基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
根据所述最大似然概率确定所述待分类文档的归属类别。
2.根据权利要求1所述的方法,其特征在于,所述基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重,包括:
按照如下公式计算所述待分类文档中每个特征词的权重:
其中,wordij表示待分类文档i中特征词j的权重,wij表示待分类文档i中的特征词j,wkj表示文档语料中第k篇文档中的特征词j,
表示特征词wij在待分类文档i中出现的次数,
表示特征词wkj在第k篇文档中出现的次数,N表示文档语料中文档的总数,
表示文档语料中包含特征词wij的文档总数,
表示文档语料中包含特征词wkj的文档总数,所述文档语料中包含至少两个类别,每个类别下包含至少一个文档。
3.根据权利要求2所述的方法,其特征在于,所述根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率,包括:
按照如下公式计算所述待分类文档中每个特征词属于各类别的最大似然概率:
其中,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,dk表示文档语料的第k篇文档,wordkj表示特征词wij在文档dk中的权重,k表示文档语料中文档的序号,
表示文档语料中包含特征词wij的文档总数,NC表示文档语料中包含的类别总数,wordkq表示文档语料的第k篇文档中第q个特征词的权重,q表示单篇文档中特征词的序号,Nq表示文档语料的第k篇文档中特征词的总数,N表示文档语料中文档的总数,
表示特征词wij在除类别C之外其他类别的文档中的权重和,
表示除类别C之外其他类别的文档中所有特征词的权重和。
4.根据权利要求3所述的方法,其特征在于,所述根据所述最大似然概率确定所述待分类文档的归属类别,包括:
根据所述最大似然概率确定所述待分类文档归属各类别的归属概率;
将所述归属概率中的最小值对应的类别确定为所述待分类文档的归属类别。
5.根据权利要求3所述的方法,其特征在于,所述根据所述最大似然概率确定所述待分类文档归属各类别的归属概率,包括:
按照如下公式确定所述待分类文档归属各类别的归属概率:
其中,P(C|i)表示待分类文档i归属除类别C之外其他类别的归属概率,p(C)表示类别C在文档语料中出现的概率,
N表示文档语料中文档的总数,NC表示属于类别C的文档总数,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,m表示待分类文档i中特征词的总数,p(wij)表示特征词wij在文档语料中出现的概率。
6.根据权利要求5所述的方法,其特征在于,按照如下公式确定所述归属概率中的最小值:
P(C|i)min=min{P(C|i)|C∈CO}
其中,CO表示文档语料中所有类别构成的集合。
7.根据权利要求1所述的方法,其特征在于,所述对待分类文档进行分词处理,并确定所述待分类文档的特征词,包括:
利用python中的jieba分词工具对待分类文档进行分词处理,并去除停用词,得到所述待分类文档的特征词。
8.一种基于补集特征的贝叶斯文档分类装置,其特征在于,所述装置包括:
分词模块,用于对待分类文档进行分词处理,并确定所述待分类文档的特征词;
权重计算模块,用于基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
最大似然概率计算模块,用于根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
类别确定模块,用于根据所述最大似然概率确定所述待分类文档的归属类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的基于补集特征的贝叶斯文档分类方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7中任一项所述的基于补集特征的贝叶斯文档分类方法。