- 关于特征函数个数问题
crf的模板由U模板和B模板组成,故其总的特征函数个数 = U模板对应的特征函数个数 + B模板对应的特征函数个数
U模板对应的特征函数个数为:L*Nu,其中L为标签个数,Nu为从U模板扩展出来的独立字符串的个数
B模板对应的特征函数个数为:L*L*Nb,其中L为标签个数,Nb为从B模板扩展出来的独立字符串的个数
- 转移概率问题
crf转移概率矩阵T的维度为L*L
转移概率矩阵T的值在crf模型文件中,对应于idB所在位置的连续L*L个权重值。在如下的模型文件中,所对应的位置即为:240~240+5*5-1(L=5)
version: 100
cost-factor: 1
maxid: 5485
xsize: 1
DE
ID
OT
ST
TH
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
B
240 B
2850 U00:&
195 U00:-
1040 U00:/
4925 U00:2
5105 U00:3
2150 U00:3个
2405 U00:51
2950 U00:;
- 关于从模板扩展出来的独立字符串前面的ID与权重矩阵的对应关系问题
下面模型文件中的ID从0开始,以L为间隔,标号不断增加。标号ID对应权重矩阵对应位置的L个权重。如:
195 U00:- // 对应权重矩阵下标为195~199(L=5)
240 B
2850 U00:&
195 U00:-
1040 U00:/
4925 U00:2
5105 U00:3
2150 U00:3个
2405 U00:51
2950 U00:;
未完待续。。。