结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。
1. 结构化感知器
模型
CRF全局化地以最大熵准则建模概率\(P(Y|X)\);其中,\(X\)为输入序列\(x_1^n\),\(Y\)为标注序列\(y_1^n\)。不同于CRF建模概率函数,SP则是以最大熵准则建模score函数:
\[S(Y,X) = \sum_s \alpha_s \Phi_s(Y,X) \]
其中,\(\Phi_s(Y,X)\)为本地特征函数\(\phi_s(h_i,y_i)\)的全局化表示:
\[\Phi_s(Y,X) = \sum_i \phi_s(h_i,y_i) \]
那么,SP