CRF++(Windows下)中文命名实体识别学习记录

使用CRF++的工具包

windows版本的可直接下载解压,不需要安装。我下载的是0.58版,注意zip哦,Windows用zip。下载链接: link.
文件里面大致是关于啥的呐:
doc文件夹:官方主页的内容。
example文件夹:有四个任务的训练数据、测试数据和模板文件。
sdk文件夹:CRF++的头文件和静态链接库。
crf_learn.exe:CRF++的训练程序。
crf_test.exe:CRF++的测试程序
libcrfpp.dll:训练程序和测试程序需要使用的静态链接库

下载后可先用example中chunking文件夹,做一下测试。其中原有4个文件:
exec.sh:训练和测试脚本
template:特征模版
test.data:测试数据
train.data:训练数据
把下载的CRF++的工具包里面的crf_learn.exe,crf_test.exe 和libcrfpp.dll文件复制到要操作的目录下面就可以调用命令了。

CRF分词原理

CRF把分词当做字的词位分类问题,通常定义字的词位信息如下:

     词首,常用B表示

     词中,常用M表示

     词尾,常用E表示

     单字词,常用S表示

准备语料

我直接下载好前人标注好的数据了,大家可自行选择。它是长这样的:
在这里插入图片描述

特征模板

新建一个名为template1的文件用于构建模板,只采用了字为特征,所以创建的模板也很简单:
下面展示 template1

# Unigram

U00:%x[-2,0] 上上个字
U01:%x[-1,0] 上个字
U02:%x[0,0]  当前字
U03:%x[1,0]  下个字
U04:%x[2,0]  下下个字
U05:%x[-1,0]/%x[0,0] 上个字和当前字
U06:%x[0,0]/%x[1,0] 当前字和下个字

# Bigram
B

%x[row,column]代表的是行和列,[-1,0]表示前1个字的第1列,[0,0]当前字的第1列,[1,0]后1个字的第1列。

训练

cmd中进入CRF++ -0.58所在的文件夹(cd CRF++ -0.58所在目录),使用
crf_learn <模板> <训练语料> <模板文件>
crf_learn template1 dev.data model 训练数据 :
 训练数据视图

测试

crf_test -m model dev.data >output2.txt 测试数据,具体效果如下:
测试数据
得到的结果格式是在原有的两列后再增加一列,是通过训练的模型对测试数据中的文字进行的标注结果。

评估标注结果

验证就是比较result文档的后两列数据,统计相同的标签个数或不同的个数,从而得到准确率、召回率、F1值。此处我们调用conlleval.pl对预测结果文件进行评估。下载链接: link.下滑网页,找conlleval.txt,将下载下来的 txt 文档,改名为 conlleval.pl ,然后放到C:\Perl64\eg里,(需安装perl的环境)
并在cmd里面输入:

> perl conlleval.pl < result2.txt

测试数据比较少,所以F值高的离谱,结果图仅供参考
在这里插入图片描述
【注】:测试结果文件中每行结束均[Tab],要把conlleval.txt中的my $delimiter = " "换成" ",即[空格]——>[Tab]。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值