中文分词的探索,CRF(条件随机场)和HMM(隐马尔可夫模型)用于分词的对比,以及中文分词的评估

在中文分词这个应用上我试验得比较多了,所以这里想对自己做过关于分词的做一些对比,总结。

可能很多人在入门隐马尔科夫模型的时候都举例过分词这个模型,我也是,当时觉得好神奇,竟然这么准确,但是后面当我越来越深入做分词这一块,学到条件随机场,并且自己实现测试,发现纯序列标注用HMM分词实际上一般般,下面就我这2个标注模型在分词种做一个对比。

1.CRF和HMM模型特点的对比

首先,先说一下2个模型的特点:

HMM相比CRF模型要小得多,我保存一个java的HMM对象也就2mb,但是CRF大致150mb,CRF囊括了HMM,因此它也强大得多,但是代价就是模型大,解码,训练都要慢一些。

为什么CRF更强大?这从原理上基本可以解释,如果你还记得HMM的3个参数,PI,A,B,其中pi是初始状态分布,A是转移概率,B是发射矩阵,也就是状态下的观测分布,最重要的区别就在于CRF可以考察当前序列位置状态下的前后观测分布,也就是说CRF能更利用数据的上下文信息,至于上下文的范围这个可以由CRF特征模板决定,关于特征模板我已经在另一篇文章种比较详细的说了,CRF++/CRF/条件随机场的特征函数模板_outsider0007的博客-CSDN博客_crf++模板

可以说CRF和HMM的差别就在于数据上下文的利用。

这2个模型的特点说完了,下面就直观的感受下这2个模型在分词上应用的对比:

1.CRF和HMM模型分词应用的对比

1.1 分词的评估

要说分词效果就先说一下分词的评估,我基本是参照一篇文章的,请看另一篇转载文章。

如果你不想看,只需要记住,下面评测中提到的精确率(precision),召回率(recall),f越大越好(f Measure),而错误率(error rate)越小越好,f值是一个综合指标,不想看其他的只需要关注f值即可

1.2 关于使用语料和测试语料

我手上有5份训练语料和测试语料:

对训练语料标记一个顺序,这将在后面用到:

[pku 0 ],[sku 1].[ctb6 2],[cityu, 3],[as 4]

在下面的对比中提到的索引组合就是这些语料的不同标号组合来作为训练数据。

1.3 对比

下面的表格中分值是5分制。

 使用同一份语料对比如下:

分词器语料总精确率总召回率总f值备注
1HMMSeg23.8283883.9387593.882353一阶HMM
2HMMSeg23.9479243.948263.947588二阶HMM
CRFSeg24.286394.2961234.290709特征函数个数:875035

可以看到CRF提升还是挺大的,注意到此时CRF的特征函数只有87035个,特征函数越多,越占用内存,相对分词效率也要稍低一些。

在所有语料组合中,分词器的最优值:

分词器语料总精确率总召回率总f值备注
1HMMSeg0,1,2,33.959013.9978963.977901一阶HMM
2HMMSeg0,1,23.9645063.9906323.97707二阶HMM
CRFSeg1,2,34.339114.336094.337031特征函数个数:1869221

此时CRF的特征函数已经1869221了。

完整的评测结果请看结尾。

对于最优状态下的分词器给出直观的分词感受如下:

1.一阶HMM
[HanLP, 是, 由, 一, 系列, 模型, 与, 算法, 组成, 的, Java工, 具包, ,, 目标, 是, 普及, 自然, 语言, 处理, 在, 生产, 环境, 中, 的, 应用, 。]
[高锰酸, 钾, ,, 强氧化剂, ,, 紫红色晶体, ,, 可, 溶于, 水, ,, 遇, 乙醇, 即, 被, 还, 原, 。, 常用, 作消, 毒剂, 、, 水净, 化剂, 、, 氧化剂, 、, 漂白剂, 、, 毒气, 吸收剂, 、, 二氧化, 碳精, 制剂, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通过, 描述, 浅草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄托, 了, 作者, 对庶, 民生, 活区, 的, 情感]
[这, 个, 像, 是, 真的[委, 屈], 前面, 那, 个, 打扮, 太, 江户, 了, ,, 一点, 不, 上, 品...@hankcs]
[鼎, 泰丰, 的, 小笼, 一点, 味道, 也, 没有..., 每样, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克罗尔, 说, :, 不, ,, 我, 不, 是, 虎妈, 。, 我, 全家, 都, 热爱, 音乐, ,, 我, 也, 鼓励, 他们, 这么, 做, 。]
[今日, APPS, :, Sago , Mini Toolbox培养, 孩子, 动手, 能力]
[财政部, 副, 部长, 王, 保安, 调任, 国家, 统计, 局党, 组书, 记]
[2.34米, 男子, 娶, 1.53米, 女粉, 丝 , 称, 夫妻, 生活, 没, 问题, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看过, 穆赫兰道, 吗]
[你, 看过, 穆赫兰道, 这部, 电影, 吗]
[乐视, 超级, 手机, 能否, 承载, 贾, 布斯, 的, 生态, 梦]
[原标题, :, 日媒, 拍到, 了, 现场, 罕见, 一幕, ,, 据, 日本, 新闻网, (, NNN, ), 9月, 8日, 报道, ,, 日前, ,, 日本, 海上, 自卫队, 现役, 最, 大, 战舰, 之, 一, 的, 直升, 机航母, “, 加贺, ”, 号, 在, 南海, 航行, 时, ,, 遭多, 艘, 中国, 海军, 战舰, 抵近, 跟踪, 监视, 。,  ]
耗时:2毫秒


2.二阶HMM
[HanLP, 是, 由, 一, 系列, 模型, 与, 算法, 组成, 的, Java工, 具包, ,, 目标, 是, 普及, 自然, 语言, 处理, 在, 生产, 环境, 中, 的, 应用, 。]
[高锰酸, 钾, ,, 强氧化剂, ,, 紫红色晶体, ,, 可, 溶于, 水, ,, 遇, 乙醇, 即, 被, 还, 原, 。, 常用, 作消, 毒剂, 、, 水净, 化剂, 、, 氧化剂, 、, 漂白剂, 、, 毒气, 吸收剂, 、, 二氧化, 碳, 精制剂, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通过, 描述, 浅草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄托, 了, 作者, 对庶, 民生, 活区, 的, 情感]
[这, 个, 像, 是, 真的[委, 屈], 前面, 那, 个, 打扮, 太, 江户, 了, ,, 一点, 不, 上, 品...@hankcs]
[鼎, 泰丰, 的, 小笼, 一点, 味道, 也, 没有..., 每样, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克罗尔, 说, :, 不, ,, 我, 不, 是, 虎妈, 。, 我, 全家, 都, 热爱, 音乐, ,, 我, 也, 鼓励, 他们, 这么, 做, 。]
[今日, APPS, :, Sago Mini Toolbox培养, 孩子, 动手, 能力]
[财政部, 副, 部长, 王, 保安, 调任, 国家, 统计, 局党, 组书, 记]
[2.34米, 男子, 娶, 1.53米, 女粉, 丝 , 称, 夫妻, 生活, 没, 问题, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看过, 穆赫兰道, 吗]
[你, 看过, 穆赫兰道, 这部, 电影, 吗]
[乐视, 超级, 手机, 能否, 承载, 贾, 布斯, 的, 生态, 梦]
[原标题, :, 日媒, 拍到, 了, 现场, 罕见, 一幕, ,, 据, 日本, 新闻网, (, NNN, ), 9月, 8日, 报道, ,, 日前, ,, 日本, 海上, 自卫队, 现役, 最大, 战舰, 之, 一, 的, 直升, 机航母, “, 加贺, ”, 号, 在, 南海, 航行, 时, ,, 遭, 多, 艘, 中国, 海军, 战舰, 抵近, 跟踪, 监视, 。,  ]
耗时:4毫秒


3.CRF

[HanLP, 是, 由, 一, 系列, 模型, 与, 算法, 组成, 的, Java, 工具, 包, ,, 目标, 是, 普及, 自然, 语言, 处理, 在, 生产, 环境, 中的, 应用, 。]
[高锰酸钾, ,, 强, 氧化剂, ,, 紫红色, 晶体, ,, 可, 溶于, 水, ,, 遇, 乙, 醇即, 被, 还原, 。, 常, 用作, 消毒剂, 、, 水, 净化剂, 、, 氧化剂, 、, 漂白剂, 、, 毒气, 吸收剂, 、, 二氧化碳, 精, 制剂, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通过, 描述, 浅草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄托, 了, 作者, 对, 庶民, 生活区, 的, 情感]
[这, 个, 像, 是, 真, 的, [, 委屈, ], 前面, 那, 个, 打扮, 太江户, 了, ,, 一点, 不, 上, 品...@, hankcs]
[鼎泰丰, 的, 小笼, 一点, 味道, 也, 没有, ..., 每样, 都, 淡淡, 的, ..., 淡淡, 的, ,, 哪, 有, 食堂, 2, A, 的, 好, 次]
[克里斯蒂娜·克罗尔, 说, :, 不, ,, 我, 不, 是, 虎妈, 。, 我, 全, 家, 都, 热爱, 音乐, ,, 我, 也, 鼓励, 他们, 这么, 做, 。]
[今日, APPS, :, Sago , Mini , Toolbox, 培养, 孩子, 动手, 能力]
[财政部, 副部长, 王保安, 调任, 国家, 统计局, 党组, 书记]
[2.34, 米, 男子娶, 1.53, 米, 女, 粉丝,  称, 夫妻, 生活, 没, 问题, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看, 过, 穆赫兰道, 吗]
[你, 看, 过, 穆赫兰道, 这, 部, 电影, 吗]
[乐视, 超级, 手机, 能否, 承载, 贾布斯, 的, 生态, 梦]
[原, 标题, :, 日媒, 拍, 到, 了, 现场, 罕见, 一幕, ,, 据, 日本, 新闻网, (, NNN, ), 9月, 8, 日, 报道, ,, 日前, ,, 日本, 海上, 自卫队, 现役, 最大, 战舰, 之一, 的, 直升机, 航母, “, 加贺, ”, 号, 在, 南海, 航行, 时, ,, 遭, 多, 艘, 中国, 海军, 战舰, 抵近, 跟踪, 监视, 。,  ]
耗时:5毫秒

直观的感受可以看出来CRF确实要精确些。

另外值得一提这里的CRF模型是我自己实现的监督学习的CRF,可能存在过拟合现象,当我用精度最高的去测试直观感受反而比稍次一点没那么好,这里使用的CRF模板如下:

"# Unigram\n" +
                "U0:%x[-1,0]\n" +
                "U1:%x[0,0]\n" +
                "U2:%x[1,0]\n" +
                "U3:%x[-2,0]%x[-1,0]\n" +
                "U4:%x[-1,0]%x[0,0]\n" +
                "U5:%x[0,0]%x[1,0]\n" +
                "U6:%x[1,0]%x[2,0]\n" +
                "\n" +
                "# Bigram\n" +
                "B";

差不多就说这些,欢迎探讨,后面再来更新关于算法细节问题吧。

附上完整的评测结果,没有整理:

从5个语料中选1个
1HMMSeg 索引组合:[0]
总精确率:3.8708949607249705,总召回率:3.889121403335314,总f得分:3.87942300416638

1HMMSeg 索引组合:[1]
总精确率:3.8283881476912494,总召回率:3.9387593944636228,总f得分:3.8823530530362946

1HMMSeg 索引组合:[2]
总精确率:3.94241179823124,总召回率:3.9579542988098573,总f得分:3.949673859508631

1HMMSeg 索引组合:[3]
总精确率:3.8416830615273123,总召回率:3.9324793589998968,总f得分:3.8860192044871473

1HMMSeg 索引组合:[4]
总精确率:3.8461342310762707,总召回率:3.915014635167027,总f得分:3.8798549520252656

从5个语料中选2个
1HMMSeg 索引组合:[0, 1]
总精确率:3.8890430262055267,总召回率:3.913733678263338,总f得分:3.9007844211182405

1HMMSeg 索引组合:[0, 2]
总精确率:3.9408737057977485,总召回率:3.954779237013928,总f得分:3.9472949423480976

1HMMSeg 索引组合:[0, 3]
总精确率:3.9214777541009833,总召回率:3.9624929085330303,总f得分:3.9414353227096335

1HMMSeg 索引组合:[0, 4]
总精确率:3.876368047689259,总召回率:3.9348182990640055,总f得分:3.904834087344106

1HMMSeg 索引组合:[1, 2]
总精确率:3.951289234592444,总召回率:3.988877155584667,总f得分:3.969529050841981

1HMMSeg 索引组合:[1, 3]
总精确率:3.905858027878659,总召回率:3.978788047388324,总f得分:3.9415931761907306

1HMMSeg 索引组合:[1, 4]
总精确率:3.8696696138240494,总召回率:3.9354676261984527,总f得分:3.9018639999404874

1HMMSeg 索引组合:[2, 3]
总精确率:3.947087390105352,总召回率:3.9785645535200764,总f得分:3.9622955394104924

1HMMSeg 索引组合:[2, 4]
总精确率:3.8928522039063918,总召回率:3.9516823030423005,总f得分:3.9216293617371942

1HMMSeg 索引组合:[3, 4]
总精确率:3.8901985141689437,总召回率:3.953131242821945,总f得分:3.921008045652149


从5个语料中选3个
1HMMSeg 索引组合:[0, 1, 2]
总精确率:3.948507792083814,总召回率:3.976600636359775,总f得分:3.9619773307522497

1HMMSeg 索引组合:[0, 1, 3]
总精确率:3.9277744861221002,总召回率:3.9801556837604917,总f得分:3.9533497127524733

1HMMSeg 索引组合:[0, 1, 4]
总精确率:3.886999486976185,总召回率:3.94116958314083,总f得分:3.9133545079309915

1HMMSeg 索引组合:[0, 2, 3]
总精确率:3.9601669318291974,总召回率:3.990127227415235,总f得分:3.974633149110835

1HMMSeg 索引组合:[0, 2, 4]
总精确率:3.9130908412559933,总召回率:3.9661995325667974,总f得分:3.938984469548849

1HMMSeg 索引组合:[0, 3, 4]
总精确率:3.9142189559249374,总召回率:3.9775081943142188,总f得分:3.9451989095825115

1HMMSeg 索引组合:[1, 2, 3]
总精确率:3.9568080960602994,总召回率:3.997435873155621,总f得分:3.9765695009602213

1HMMSeg 索引组合:[1, 2, 4]
总精确率:3.9062162326669823,总召回率:3.9685886366245633,总f得分:3.9367237718893993

1HMMSeg 索引组合:[1, 3, 4]
总精确率:3.903550497225802,总召回率:3.968920869620439,总f得分:3.935541563570684

1HMMSeg 索引组合:[2, 3, 4]
总精确率:3.915108745245354,总召回率:3.974989088634333,总f得分:3.9444204498331032

从5个语料中选4个
1HMMSeg 索引组合:[0, 1, 2, 3]
总精确率:3.95901032814125,总召回率:3.9978956850832423,总f得分:3.9779014116957696

1HMMSeg 索引组合:[0, 1, 2, 4]
总精确率:3.915517393853136,总召回率:3.971165346799785,总f得分:3.9426514690471364

1HMMSeg 索引组合:[0, 1, 3, 4]
总精确率:3.9232493142759775,总召回率:3.9852525414959525,总f得分:3.953579064805121

1HMMSeg 索引组合:[1, 2, 3, 4]
总精确率:3.922357353802763,总召回率:3.9846515149432995,总f得分:3.95284391901355

1HMMSeg 索引组合:[0, 2, 3, 4]
总精确率:3.935534713241168,总召回率:3.994308827374849,总f得分:3.964302595249541

从5个语料中选5个
1HMMSeg 索引组合:[0, 1, 2, 3, 4]
总精确率:3.9433541023648138,总召回率:4.003168214322818,总f得分:3.972616120622181


从5个语料中选1个
2HMMSeg 索引组合:[0]
总精确率:3.8734400567744016,总召回率:3.886465879706925,总f得分:3.8793912590241466

2HMMSeg 索引组合:[1]
总精确率:3.834190072299533,总召回率:3.93460429285655,总f得分:3.883323459039823

2HMMSeg 索引组合:[2]
总精确率:3.947923521151429,总召回率:3.9482598282266737,总f得分:3.9475876989611303

2HMMSeg 索引组合:[3]
总精确率:3.8455600698344057,总召回率:3.924073984304348,总f得分:3.883896176222332

2HMMSeg 索引组合:[4]
总精确率:3.8591622856550325,总召回率:3.8980584575408983,总f得分:3.878073999666234

从5个语料中选2个
2HMMSeg 索引组合:[0, 1]
总精确率:3.8915047588214797,总召回率:3.9102646521873337,总f得分:3.90030893332647

2HMMSeg 索引组合:[0, 2]
总精确率:3.9456009304079958,总召回率:3.948329608788575,总f得分:3.9464426634016982

2HMMSeg 索引组合:[0, 3]
总精确率:3.92355355035803,总召回率:3.9554795529737308,总f得分:3.9390150212832884

2HMMSeg 索引组合:[0, 4]
总精确率:3.887914059515162,总召回率:3.9204648385890524,总f得分:3.903559455769132

2HMMSeg 索引组合:[1, 2]
总精确率:3.9584061609225714,总召回率:3.9835742305020645,总f得分:3.97047514852768

2HMMSeg 索引组合:[1, 3]
总精确率:3.9121722607587834,总召回率:3.9711604081639855,总f得分:3.941044212440074

2HMMSeg 索引组合:[1, 4]
总精确率:3.8856086525240463,总召回率:3.920455162427377,总f得分:3.902484944542904

2HMMSeg 索引组合:[2, 3]
总精确率:3.9485347238244604,总召回率:3.9674642816818926,总f得分:3.957494283264194

2HMMSeg 索引组合:[2, 4]
总精确率:3.9052929396300473,总召回率:3.93527145496443,总f得分:3.9197846702313655

2HMMSeg 索引组合:[3, 4]
总精确率:3.904888329762847,总召回率:3.9383799575291625,总f得分:3.9211245221512856

从5个语料中选3个
2HMMSeg 索引组合:[0, 1, 2]
总精确率:3.9561284063334745,总召回率:3.972216009603809,总f得分:3.963637091540601

2HMMSeg 索引组合:[0, 1, 3]
总精确率:3.9322468118407397,总召回率:3.9746339357591163,总f得分:3.9528891092861427

2HMMSeg 索引组合:[0, 1, 4]
总精确率:3.9022864134752466,总召回率:3.9302161901251176,总f得分:3.9156383047720658

2HMMSeg 索引组合:[0, 2, 3]
总精确率:3.962825587263973,总召回率:3.9812043086190276,总f得分:3.9715412726156467

2HMMSeg 索引组合:[0, 2, 4]
总精确率:3.923165032697388,总召回率:3.951857160517961,总f得分:3.9369606319931165

2HMMSeg 索引组合:[0, 3, 4]
总精确率:3.9240126294853193,总召回率:3.9618006991715924,总f得分:3.942391692554999

2HMMSeg 索引组合:[1, 2, 3]
总精确率:3.9596678431303385,总召回率:3.988698589649854,总f得分:3.9736675867715725

2HMMSeg 索引组合:[1, 2, 4]
总精确率:3.9200601016782497,总召回率:3.9539534689300213,总f得分:3.9364742431007294

2HMMSeg 索引组合:[1, 3, 4]
总精确率:3.9145975057020745,总召回率:3.9536180700844192,总f得分:3.9335552053998253

2HMMSeg 索引组合:[2, 3, 4]
总精确率:3.9282362703056304,总召回率:3.9631970960936957,总f得分:3.945218375779641

从5个语料中选4个
2HMMSeg 索引组合:[0, 1, 2, 3]
总精确率:3.9645059027584013,总召回率:3.9906321017399224,总f得分:3.9770697361459986

2HMMSeg 索引组合:[0, 1, 2, 4]
总精确率:3.9308214918574245,总召回率:3.962314654157765,总f得分:3.9459917741145945

2HMMSeg 索引组合:[0, 1, 3, 4]
总精确率:3.930910435769432,总召回率:3.970625750900794,总f得分:3.950219650775339

2HMMSeg 索引组合:[1, 2, 3, 4]
总精确率:3.9349029362220964,总召回率:3.973672380967142,总f得分:3.95375701602984

2HMMSeg 索引组合:[0, 2, 3, 4]
总精确率:3.9434480959812417,总召回率:3.980649128356055,总f得分:3.961546900215837

从5个语料中选5个
2HMMSeg 索引组合:[0, 1, 2, 3, 4]
总精确率:3.949573735350932,总召回率:3.9882521649639324,总f得分:3.9683863267478445

从5个语料中选1个
总的Unigram特征函数个数:1136499
crfSegmenter 索引组合:[0]
总精确率:4.256375812965886,总召回率:4.257803745132337,总f得分:4.256448196349558


总的Unigram特征函数个数:727777
crfSegmenter 索引组合:[1]
总精确率:4.208733088860235,总召回率:4.2619096455147645,总f得分:4.234698719786066

总的Unigram特征函数个数:875035
crfSegmenter 索引组合:[2]
总精确率:4.286389518392307,总召回率:4.296123341643277,总f得分:4.2907094316046495

总的Unigram特征函数个数:1508401
crfSegmenter 索引组合:[3]
总精确率:4.224722216392761,总召回率:4.258815339599848,总f得分:4.241079844839651

总的Unigram特征函数个数:2893306
crfSegmenter 索引组合:[4]
总精确率:4.234315308459842,总召回率:4.288691151328337,总f得分:4.260832243030232

总的Unigram特征函数个数:1452659
crfSegmenter 索引组合:[0, 1]
总精确率:4.29509040187884,总召回率:4.3002257117978715,总f得分:4.297000972590617

总的Unigram特征函数个数:1552251
crfSegmenter 索引组合:[0, 2]
总精确率:4.321303338515831,总召回率:4.3171506187145745,总f得分:4.318661490489362

总的Unigram特征函数个数:2054278
crfSegmenter 索引组合:[0, 3]
总精确率:4.31780687829845,总召回率:4.319843045281019,总f得分:4.318213966319677

总的Unigram特征函数个数:3250980
crfSegmenter 索引组合:[0, 4]
总精确率:4.293289286705298,总召回率:4.295956443930624,总f得分:4.293989757828687

总的Unigram特征函数个数:1253315
crfSegmenter 索引组合:[1, 2]
总精确率:4.326710506393448,总召回率:4.338521835049587,总f得分:4.33208400874604

总的Unigram特征函数个数:1798763
crfSegmenter 索引组合:[1, 3]
总精确率:4.3130820391565186,总召回率:4.341231605029004,总f得分:4.326514383797707

总的Unigram特征函数个数:3071024
crfSegmenter 索引组合:[1, 4]
总精确率:4.292810028821696,总召回率:4.317526546238065,总f得分:4.304571494515318

总的Unigram特征函数个数:1869221
crfSegmenter 索引组合:[2, 3]
总精确率:4.339109999777037,总召回率:4.336089665088207,总f得分:4.337030776105888

总的Unigram特征函数个数:3121168
crfSegmenter 索引组合:[2, 4]
总精确率:4.303815379905947,总召回率:4.319278844674585,总f得分:4.3110250314863805

总的Unigram特征函数个数:3451088
crfSegmenter 索引组合:[3, 4]
总精确率:4.301584825129588,总召回率:4.313496993334974,总f得分:4.306981460885512

总的Unigram特征函数个数:1807132
crfSegmenter 索引组合:[0, 1, 2]
总精确率:4.336198629407074,总召回率:4.3380218510367,总f得分:4.336555027225279

总的Unigram特征函数个数:2265043
crfSegmenter 索引组合:[0, 1, 3]
总精确率:4.328251017743472,总召回率:4.3401766630044465,总f得分:4.333603057084105

总的Unigram特征函数个数:3393738
crfSegmenter 索引组合:[0, 1, 4]
总精确率:4.309423068560654,总召回率:4.3055980993507905,总f得分:4.306860566527684

总的Unigram特征函数个数:2324296
crfSegmenter 索引组合:[0, 2, 3]
总精确率:4.3362176999141635,总召回率:4.326000061514508,总f得分:4.330519709525633

总的Unigram特征函数个数:3437246
crfSegmenter 索引组合:[0, 2, 4]
总精确率:4.309660342806946,总召回率:4.306351776885001,总f得分:4.3074591804276094

总的Unigram特征函数个数:3741094
crfSegmenter 索引组合:[0, 3, 4]
总精确率:4.30275825431282,总召回率:4.304430311027441,总f得分:4.303007535324407

总的Unigram特征函数个数:2107239
crfSegmenter 索引组合:[1, 2, 3]
总精确率:4.347279501022128,总召回率:4.348538072250367,总f得分:4.347382274041837

总的Unigram特征函数个数:3277709
crfSegmenter 索引组合:[1, 2, 4]
总精确率:4.320703559544421,总召回率:4.330356554563042,总f得分:4.325007886653665

总的Unigram特征函数个数:3591918
crfSegmenter 索引组合:[1, 3, 4]
总精确率:4.314629941864543,总召回率:4.325656488777164,总f得分:4.319581815232458

总的Unigram特征函数个数:3629110
crfSegmenter 索引组合:[2, 3, 4]
总精确率:4.319223301467417,总召回率:4.320357557189831,总f得分:4.319273932068687

总的Unigram特征函数个数:2512791
crfSegmenter 索引组合:[0, 1, 2, 3]
总精确率:4.342177977903567,总召回率:4.339490183620515,总f得分:4.340292058767584

总的Unigram特征函数个数:3569840
crfSegmenter 索引组合:[0, 1, 2, 4]
总精确率:4.319390204433497,总召回率:4.315819417531209,总f得分:4.317053502662063

总的Unigram特征函数个数:3861972
crfSegmenter 索引组合:[0, 1, 3, 4]
总精确率:4.3103564835753705,总召回率:4.3132556212746165,总f得分:4.311226205914882

总的Unigram特征函数个数:3759092
crfSegmenter 索引组合:[1, 2, 3, 4]
总精确率:4.324385980484043,总召回率:4.3263572005287925,总f得分:4.324874072540238

总的Unigram特征函数个数:3895565
crfSegmenter 索引组合:[0, 2, 3, 4]
总精确率:4.308663909378264,总召回率:4.303066912536404,总f得分:4.305327828827322

总的Unigram特征函数个数:4010207
crfSegmenter 索引组合:[0, 1, 2, 3, 4]
总精确率:4.3142094471590475,总召回率:4.310626916544051,总f得分:4.311899688134844
  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值