CRF ++工具初体验

CRF ++工具初体验

利用CRF++的工具对语料进行处理

CRF++ 工具的下载

这个下载方法网上有很多,但是由于一直找不到安装包,就使用了以下方法:
https://blog.csdn.net/jpzhoucsdn/article/details/53083283
使用的时候可能会报错,百度就可以解决了
(补充:https://drive.google.com/drive/folders/0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0可以下载很多版本

训练过程

语料使用的是师兄师姐给的一份有十个特征的一个数据集。(感谢
在这里插入图片描述

特征模板:
特征模板一开始有点懵逼,因为感觉网上讲到的都是特征模板是什么,要怎么理解,好像没找到说要怎么写的(捂脸
特征模板就是分成unigram 和bigram,unigram比较常用。
特征模板的知识感觉这里说得挺清楚了:
https://blog.csdn.net/asdfsadfasdfsa/article/details/81073522
还有这个:https://blog.csdn.net/sihailongwang/article/details/75340491
也挺详细地说了bigram不怎么使用的原因。
但是我找不到要教怎么写啊怎么写啊,都是说准备好特征模板,或者说这里有个特征模板(一开始的时候还真的以为这个是系统自带的(x

所以就根据网上有的一个特征的模板跟两个特征的模板找一下规律,然后写了十个特征的。。。但是最后输出的实验结果好像准确率比一个特征的还低。。。。感觉这样子写是不对的吧???
一个的:

# Unigram

U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]

#Bigram

B
(为什么那个#Unigram自动变成标题了emm

以及两个特征的:

#Unigram

U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]

U10:%x[-2,1]
U11:%x[-1,1]
U12:%x[0,1]
U13:%x[1,1]
U14:%x[2,1]
U15:%x[-2,1]/%x[-1,1]
U16:%x[-1,1]/%x[0,1]
U17:%x[0,1]/%x[1,1]
U18:%x[1,1]/%x[2,1]

U20:%x[-2,1]/%x[-1,1]/%x[0,1]
U21:%x[-1,1]/%x[0,1]/%x[1,1]
U22:%x[0,1]/%x[1,1]/%x[2,1]

#Bigram

B

所以发现他们特征模板每个特征都是先看前面后面那几个字的特征,然后再结合两个两个来看,最后整的再结合三个????
于是我就这样子写了十个特征。。。感觉是错的。。。。
在这里插入图片描述

测试语料

训练语料:
1、把crf_learn.exe ,crf_test.exe,libcrfpp.dll放到要测试的那些语料的同个文件夹里面
2、右键打开终端,在终端输入:
crf_learn 特征模板 要训练的语料 输出的模型名称
我写的就是:

crf_learn template_1 trainset_10 model_10_1

测试语料:
1、测试模型:
crf_test -v2 -m 模型 可以被对比的数据集| head
我写的是:

crf_test -v2 -m model_10_1 testset_answer.txt| head

然后就输出了这个:

# 0.969980

除 0 0 0 0 0 0 0 0 1 WW/0.998347
了 0 0 0 0 0 0 0 5 5 WW/0.999869
我 0 0 0 0 0 0 0 3 5 WW/0.994645
不 0 0 0 0 0 1 0 0 5 WW/0.985566
喜 2 2 0 0 1 1 1 0 2 WW/0.999801
欢 1 3 0 0 0 0 0 5 0 WW/0.999782
的 0 0 0 0 0 0 0 5 5 WW/0.999152
白 0 2 3 0 3 1 1 2 2 B-nr W/0.998736
百 0 0 0 0 1 1 0 0 0 M-nr W/0.993710

2、输出实验结果:
crf_test -m 模型 拿来测试的数据集 > 输出的结果
e.g.
crf_test -m model1 testset_answer.txt > result1.txt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值