CRF++使用

最新推荐文章于 2021-08-10 21:07:29 发布

wangran51

最新推荐文章于 2021-08-10 21:07:29 发布

阅读量152

点赞数

分类专栏： C++ shell NLP 文章标签： python 人工智能

C++ 同时被 3 个专栏收录

65 篇文章 0 订阅

订阅专栏

NLP

33 篇文章 0 订阅

订阅专栏

shell

28 篇文章 0 订阅

订阅专栏

前段时间写了中文分词的一些记录里面提到了CRF的分词方法，近段时间又研究了一下，特把方法写下来，以备忘，另外，李沫南同学优化过CRF++，见：http://www.coreseek.cn/opensource/CRF/。我觉得CRF++还有更大的优化空间，以后有时间再搞。

1 下载和安装

CRF的概念，请google，我就不浪费资源啦。官方地址如下：http://crfpp.sourceforge.net/

我用的是Ubutnu，所以，下载的是源码：http://sourceforge.net/projects/crfpp/files/ 下载CRF++-0.54.tar.gz

没有gcc/g++/make请安装
% ./configure
% make[如果path.h报错加上#inlcude<iostream>头文件]
% sudo make install

2 测试和体验
在源码包中有example，可以执行./exec.sh体验一下
exec.sh #训练和测试脚本
template #模板文件
test.data #测试文件
train.data #训练文件
可以打开看看

3 语料整理和模板编写

我采用的是6Tag和6Template的方式
S，单个词；B，词首；E，词尾；M1/M2/M，词中

1个字的词：
和 S
2个字的词(注意是实际上是一个字一行，我为了排版，改为横排的了)：
中 B 国 E
3个字的词：
进 B 一 M 步 E
5个字的词：
发 B 展 M1 中 M2 国 M 家 E
跟多字的词
中 B 华 M1 人 M2 民 M 共 M 和 M国 E
标点符号作为单词（S表示）

从bamboo项目中下载：people-daily.txt.gz
pepoledata.py文件

[python]view plaincopy
        
    
#!/usr/bin/python
 
#-*-coding:utf-8-*-
 
 
 
importsys
 
 
 
#home_dir="D:/source/NLP/people_daily//"
 
home_dir="/home/lhb/workspace/CRF_data/"
defsplitWord(words):
uni=words.decode('utf-8')
li=list()
foruinuni:
li.append(u.encode('utf-8'))
returnli
 
 
#4tag
 
#S/B/E/M
defget4Tag(li):
length=len(li)
#printlength
iflength==1:
return['S']
eliflength==2:
return['B','E']
eliflength>2:
li=list()
li.append('B')
foriinrange(0,length-2):
li.append('M')
li.append('E')
returnli
#6tag
#S/B/E/M/M1/M2
defget6Tag(li):
length=len(li)
#printlength
iflength==1:
return['S']
eliflength==2:
return['B','E']
eliflength==3:
return['B','M','E']
eliflength==4:
return['B','M1','M','E']
eliflength==5:
return['B','M1','M2','M','E']
eliflength>5:
li=list()
li.append('B')
li.append('M1')
li.append('M2')
foriinrange(0,length-4):
li.append('M')
li.append('E')
returnli
 
defsaveDataFile(trainobj,testobj,isTest,word,handle,tag):
ifisTest:
saveTrainFile(testobj,word,handle,tag)
else:
saveTrainFile(trainobj,word,handle,tag)
 
defsaveTrainFile(fiobj,word,handle,tag):
iflen(word)>0:
wordli=splitWord(word)
iftag=='4':
tagli=get4Tag(wordli)
iftag=='6':
tagli=get6Tag(wordli)
foriinrange(0,len(wordli)):
w=wordli[i]
h=handle
t=tagli[i]
fiobj.write(w+'/t'+h+'/t'+t+'/n')
else:
#print'Newline'
fiobj.write('/n')
 
#B,M,M1,M2,M3,E,S
defconvertTag(tag):
fiobj=open(home_dir+'people-daily.txt','r')
trainobj=open(home_dir+tag+'.train.data','w')
testobj=open(home_dir+tag+'.test.data','w')
 
arr=fiobj.readlines()
i=0
forainarr:
i+=1
a=a.strip('/r/n/t')
words=a.split('')
test=False
ifi%10==0:
test=True
forwordinwords:
word=word.strip('/t')
iflen(word)>0:
i1=word.find('[')
ifi1>=0:
word=word[i1+1:]
i2=word.find(']')
ifi2>0:
word=word[:i2]
word_hand=word.split('/')
w,h=word_hand
#printw,h
ifh=='nr':#renmin
#print'NR',w
ifw.find('·')>=0:
tmpArr=w.split('·')
fortmpintmpArr:
saveDataFile(trainobj,testobj,test,tmp,h,tag)
continue
ifh!='m':
saveDataFile(trainobj,testobj,test,w,h,tag)
 
ifh=='w':
saveDataFile(trainobj,testobj,test,"","",tag)#split
 
trainobj.flush()
testobj.flush()
 
if__name__=='__main__':
iflen(sys.argv)<2:
print'tag[6,4]convertrawdatatotrain.dataandtag.test.data'
else:
tag=sys.argv[1]
convertTag(tag)

下载下来并解压，然后用脚本整理数据，注意home_dir改为语料的目录：
python ./peopledata.py 6

90%数据作为训练数据，10%的数据作为测试数据，生成的文件如：
6.test.data
6.train.data

模板文件的写法如下
template：

[python]view plaincopy
        
    
#Unigram
U00:%x[-1,0]
U01:%x[0,0]
U02:%x[1,0]
U03:%x[-1,0]/%x[0,0]
U04:%x[0,0]/%x[1,0]
U05:%x[-1,0]/%x[1,0]
 
#Bigram
B

%x[row,column]代表的是行和列，[-1,0]表示前1个字的第1列，［0，0］当前字的第1列，［1，0］后1个字的第1列

4 执行和结果查看
6exec.sh文件

[python]view plaincopy
        
    
#!/bin/sh
./crf_learn-f3-c4.0template6.train.data6.model>6.train.rst
./crf_test-m6.model6.test.data>6.test.rst
./crfeval.py6.test.rst
 
#./crf_learn-aMIRA-f3templatetrain.datamodel
#./crf_test-mmodeltest.data
#rm-fmodel

WordCount from test result: 109805
WordCount from golden data: 109948
WordCount of correct segs : 106145
P = 0.966668, R = 0.965411, F-score = 0.966039

5 调整Tag和模板
4 Tag S/B/M/E 比 6Tag 去掉了M1和M2
python ./peopledata.py 4
4exec.sh文件为

[python]view plaincopy
        
    
#!/bin/sh
./crf_learn-f3-c4.0template4.train.data4.model>4.train.rst
./crf_test-m4.model4.test.data>4.test.rst
./crfeval.py4.test.rst

4Tag的效果为
lhb@localhost:~/workspace/CRF_data$./crfeval.py 4.test.rst
ordCount from test result: 109844
WordCount from golden data: 109948
WordCount of correct segs : 105985
P = 0.964868, R = 0.963956, F-score = 0.964412

6Tag的效果比4Tag有细微的差距，当然是6Tag好。

6Tag 训练时间为
10062.00s
4tag的训练时间为
4208.71s

6Tag的标注方法差异

1)把M放在E之前：
发 B 展 M1 中 M2 国 M 家 E
2)把M放在B后
发 B 展 M 中 M1 国 M2 家 E
3)把M放在M1和M2之间：
发 B 展 M1 中 M 国 M2 家 E
第1种方式效果最好，有细微的差距。
template的编写

我尝试过12行模板的编写，把词性作为一个计算因素，但是速度实在是很慢，没跑完，我就关机了。效果应该比6 template要好，可以尝试以下。

[python]view plaincopy
        
    
#Unigram
U00:%x[-1,1]
U01:%x[0,1]
U02:%x[1,1]
U03:%x[-1,1]/%x[0,1]
U04:%x[0,1]/%x[1,1]
U05:%x[-1,1]/%x[1,1]
U06:%x[-1,0]
U07:%x[0,0]
U08:%x[1,0]
U09:%x[-1,0]/%x[0,0]
U010:%x[0,0]/%x[1,0]
U011:%x[-1,0]/%x[1,0]
 
#Bigram
B

有某位同学问我要crfeval.py文件，特放出如下：

[python]view plaincopy
        
    
#!/usr/bin/python
#-*-coding:utf-8-*-
 
importsys
 
if__name__=="__main__":
try:
file=open(sys.argv[1],"r")
except:
print"resultfileisnotspecified,oropenfailed!"
sys.exit()
 
wc_of_test=0
wc_of_gold=0
wc_of_correct=0
flag=True
 
forlinfile:
ifl=='/n':continue
 
_,_,g,r=l.strip().split()
 
ifr!=g:
flag=False
 
ifrin('E','S'):
wc_of_test+=1
ifflag:
wc_of_correct+=1
flag=True
 
ifgin('E','S'):
wc_of_gold+=1
 
print"WordCountfromtestresult:",wc_of_test
print"WordCountfromgoldendata:",wc_of_gold
print"WordCountofcorrectsegs:",wc_of_correct
 
#查全率
P=wc_of_correct/float(wc_of_test)
#查准率，召回率
R=wc_of_correct/float(wc_of_gold)
 
print"P=%f,R=%f,F-score=%f"%(P,R,(2*P*R)/(P+R))