hanlp 训练模型_NLP之CRF分词训练(六)

本文介绍了使用hanlp进行CRF分词模型训练的步骤,包括语料预处理、BEMS标注、CRF++安装及训练。在训练音乐领域的分词模型时,发现CRF模型效果不佳,可能由于专有名词的不确定性。建议使用字典分词方法来处理类似语料。
摘要由CSDN通过智能技术生成

分三步

1、先分词

2、做BEMS标注,同时做词性标注

3、训练模型

1、对语料进行分词

拿到测试部的语料或者其他渠道的语料,先对语料进行分词,我刚刚开始是用NS分词的,等CRF模型训练好后,可以直接用CRF进行分词,分完词后要人工核对分词结果,将分词分得不正确的地方修改好

2、标注词性,标注BEMS

BEMS所说是中科院的提出一种标注,也有说BEIS的,hanlp用的是BEMS

B:开始

E:结束

M/I:中间

S:单独

BEMS标注已经写了一个方法generateCRF在SegAndSave.class中。

词性标注只能人工标注了。

3、训练

安装CRF++

./configure

make

make install

cd /CRF++-0.58/example/seg

执行crf++的crf_learn指令

../../crf_learn -f 3 -c 4.0 template train.data model -t

产生的model.txt就是我们要的文件,model二进制文件hanlp运行不起来

eg: 我想听周杰伦的夜曲

1)分词:我 想听 周杰伦 的 夜曲

2)BEMS和词性标注(每列用\t分隔开,一般键入tab键,windows的tab似乎有问题,可以参考用SegAndSave.class的generateSeg方法):

分词标注

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值