matlab 文本分类,中文文本分类语料库-TanCorpV1.0

最新推荐文章于 2023-11-13 21:46:23 发布

weixin_39564036

最新推荐文章于 2023-11-13 21:46:23 发布

阅读量545

点赞数

文章标签： matlab 文本分类

2 使用说明

本语料采用词频矩阵的方式给出，其格式采用Han[1-2]定义的格式，Han数据格式包括三个文件，即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料，本人对它进行了扩充，增加了一个文件，x.mat.hlabel。这样就能描述多层语料，并能兼容单层语料。

x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档，具体格式为：词词频，…，词词频；x.mat.rlabel是类别文件，每行一个类别名，对应x.mat中每篇文档的类别，对多层而言，它表示文档的叶子节点类别；x.mat.clabel是词名，也就是字典。字典中每个词语的编号等于它所在行的行号；x.mat.hlabel描述每个类别的层次关系。

预处理采用分词工具ICTCLAS[3]对文档进行分词，并去掉数字与标点符号。

本人欢迎各位业界同行使用本分类语料，并希望用如下方式加以引用：

[1] 谭松波，王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面网址.

本语料可以作为三个分类语料集使用：

TanCorp-12：单层语料

TanCorp-60：单层语料

TanCorpHier：两层语料

特别声明：本语料仅作学术研究之用，不可用于任何商业用途！

若您有任何问题或建议，请直接跟我联系。

3 算法评测

为了验证语料的有效性，我们采用五种经典的文本分类算法进行评测，即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow；贝叶斯采用多项式模型；SVMTorch采用线性核函数。所有实验都采用三分交叉验证，即把数据集随机划分成三份，每次取其中两份进行训练，一份进行测试，然后把三次分类结果的平均结果作为最终结果。

实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点，这主要是因为TanCorp-60样本分布的严重不均衡性。

表2: 五种分类算法在TanCorp上的最好微平均比较

中心法

最近邻

Winnow

贝叶斯

SVMTorch

TanCorp-12

0.8632

0.8478

0.7587

0.8688

0.9172

TanCorp-60

0.7562

0.7001

0.6684

0.7025

0.7493

weixin_39564036

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
matlab 文本分类,中文文本分类语料库-TanCorpV1.0

2 使用说明本语料采用词频矩阵的方式给出，其格式采用Han[1-2]定义的格式，Han数据格式包括三个文件，即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料，本人对它进行了扩充，增加了一个文件，x.mat.hlabel。这样就能描述多层语料，并能兼容单层语料。x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其...
复制链接

扫一扫