crf++-0.58用于分词

最新推荐文章于 2022-04-12 18:44:34 发布

tsf_1993

最新推荐文章于 2022-04-12 18:44:34 发布

阅读量3k

点赞数 1

分类专栏： CRF nlp工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_26550817/article/details/48552455

版权

nlp工具同时被 2 个专栏收录

6 篇文章

订阅专栏

2 篇文章

订阅专栏

准备

1.下载crf++-0.58
2.训练数据train.txt
3.template 文件
4.测试数据test.txt
本文之讲述简单的操作步骤，

这里写图片描述

train.txt文件数据格式：

这里写图片描述

template文件

这里写图片描述

test.txt 文件数据格式

这里写图片描述

训练命令：
crf_learn template train.txt model
命令执行完成会在工作目录生成model文件,

这里写图片描述

这里写图片描述

测试命令：
crf_test -m model test.data>>out.txt
命令执行完成会在工作目录生成out.txt, 内容为预测结果

这里写图片描述

测试结果：out.txt

这里写图片描述

训练参数：
例如：
crf_learn -a CRF-L1 -thread 10 template train.txt model
可选参数
-f, –freq=INT 使用属性的出现次数不少于INT(默认为1)
-m, –maxiter=INT 设置INT为LBFGS的最大跌代次数 (默认10k)
-c, –cost=FLOAT 设置FLOAT为代价参数，过大会过度拟合 (默认1.0)
-e, –eta=FLOAT 设置终止标准FLOAT(默认0.0001)
-C, –convert 将文本模式转为二进制模式
-t, –textmodel 为调试建立文本模型文件
-a, –algorithm=(CRF|MIRA)
选择训练算法，默认为CRF-L2
-p, –thread=INT 线程数(默认1)，利用多个CPU减少训练时间
-H, –shrinking-size=INT
设置INT为最适宜的跌代变量次数 (默认20)
-v, –version 显示版本号并退出
-h, –help 显示帮助并退出

几个很好的链接：crf分词解码过程理解
http://www.52nlp.cn/%E5%88%9D%E5%AD%A6%E8%80%85%E6%8A%A5%E9%81%933-crf-%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E8%A7%A3%E7%A0%81%E8%BF%87%E7%A8%8B%E7%90%86%E8%A7%A3
crf模型格式说明
http://www.hankcs.com/nlp/the-crf-model-format-description.html
CRF分词的纯Java实现
http://www.hankcs.com/nlp/segment/crf-segmentation-of-the-pure-java-implementation.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。