朴素贝叶斯中文文本分类器的研究与实现（2）[88250、zy、Sindy原创]

最新推荐文章于 2024-07-23 14:36:35 发布

iteye_1176

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量125

点赞数

文章标签：人工智能 java

转载请保留作者信息：

作者：88250

Blog：http:/blog.csdn.net/DL88250

MSN & E-mail & QQ：DL88250@gmail.com

作者：zy

Blog：http:/blog.csdn.net/zyofprogrammer

作者：Sindy

E-Mail：sindybanana@gmail.com

续上篇

上次说到了效率的问题，现在已经解决了，还修复了不少的Bugs :-) 不过，查阅了一些文献后，发现了一个新的理论问题。

理论问题

朴素贝叶斯文本分类模型分为两种：

文档型
词频型

都是使用下式计算进行分类：

_NB=arg Max( P(c _j) * ∏ ₁ ^C P(x _i|c _j) )
其中，P(c _j)为类别j的先验概率，P(x _i|c _j)为特征量 x _i在类别c _j的类条件概率上次的分类模型属于文档型的，正确率约为50%左右，理论上朴素贝叶斯分类的正确率可以达到80%以上。文档型的正确率很低，主要原因是训练库的以分文本质量低下。目前我们已经在着手自己收集训练数据了，提高训练库的质量。

先验概率计算

先验概率计算方式有两种：

文档型不考虑词频在各分类下的出现次数，仅考虑各分类下文档的数目。如下式计算：
P(c

_j)=N(C=c _j) /N
其中，N(C=c _j)表示类别c _j中的训练文本数量； N表示训练文本集总数量。词频型考虑单词在各分类文档中出现的频次，如下式计算：
P(c _j)= ^V∑ _k=1TF(X=x _k, C=c _j) / ^W∑ _m=1 ^V∑ _k=1TF(X=x _k, C=c _m)
其中，V表示特征词表中总单词（属性）数，TF(X=x _i, C=c _j) 表示属性x _i在类c _j中出现次数之和，W表示总类别数目。

注意：类条件概率的计算方式必须与先验概率的计算方式匹配，如果先验概率是用文档型计算的，那么类条件概率也必须使用文档型计算方式，反之亦然。

类条件概率

类条件概率的计算有两种方式：

文档型不考虑单词在文档中的出现频次，仅考虑单词在文档中是否出现。 0表示未出现，1表示出现。如下式计算：
P(x

_j|c _j)=( N(X=x _i, C=c _j)+1 ) / ( N(C=c _j)+V )
其中，N(X=x _i, C=c _j）表示类别c _j中包含属性x _i的训练文本数量；N(C=c _j)表示类别c _j中的训练文本数量；V表示类别的总数。词频型考虑单词在文档中出现的频次，如下式计算：
P(x _j|c _j)=( TF(X=x _i, C=c _j)+1) / ( V+ ^V∑ _k=1TF(X=x _k, C=c _j) )
其中，V表示特征词表中总单词（属性）数，TF(X=x _i, C=c _j) 表示属性x _i在类c _j中出现次数之和。

注意：

类条件概率的计算方式必须与先验概率的计算方式匹配，如果先验概率是用文档型计算的，那么类条件概率也必须使用文档型计算方式，反之亦然
为避免类条件概率结果为0，采用了拉普拉斯概率估计

关于训练库的预处理

为了提高分类的效率和准确率，必须对训练库进行预处理。主要预处理步骤如下：

读取某一分类下的所有训练文本
对这些文本进行分词处理
通过词性、词长过滤无用词
将剩下的词作为这一分类的特征结果并保存成文本

目前实现的训练库预处理器主要是针对词频分类模型的。

当前技术上的问题

现在词频型的分类也做好了，不过有个技术上的问题还在解决，就是Java的中文分词组件。原来用的是极易中文分词组件，虽然分词效果还不错，但是没有词性标注。zy在研究中科院那个 ICTCLAS分词组件， ICTCLAS3.0的试用申请发给作者3天了，没回信－－!。1.0版本的在搞JNI调用，也很麻烦。。。。

下一篇文章将对我们的朴素贝叶斯分类器进行评估，请大家耐心等待 :-)

iteye_1176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯中文文本分类器的研究与实现（2）[88250、zy、Sindy原创]

转载请保留作者信息：作者：88250Blog：http:/blog.csdn.net/DL88250MSN &amp; E-mail &amp; QQ：DL88250@gmail.com作者：zyBlog：http:/blog.csdn.net/zyofprogrammer作者：SindyE-Mail：sindybanana@gmail.com续上篇上次说到...
复制链接

扫一扫