FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词、词性标注、文本分类、依存句法分析等功能。
1. 前言
类似于THULAC,FNLP也是采用线性模型(linear model)分词。较于对数线性模型(log-linear model)HMM/CRF所不同的是,线性模型没有归一化因子而直接建模Score函数:
\[S(X,Y) = \sum_s w_s * \Phi_s(X,Y) \]
则序列标注问题对应于求解:
\[\mathop{\arg \max}_{Y} S(X,Y) \]
THULAC是采用感知器来学习参数\(w_s\),而FNLP则是采用在线学习算法Passive-Aggressive(PA) [2]。PA算法结合感知器与SVM的优点,学习速度快;损失函数为hinge loss:
\[loss(W;(X,Y)) = \left \{ { \matrix { {0,} & {\gamm