开源中文分词工具探析(五):FNLP

48 篇文章 11 订阅 ¥19.90 ¥99.00
FNLP是Fudan NLP实验室开源的Java工具包,涵盖分词、词性标注等任务。它使用线性模型而非HMM/CRF,并采用Passive-Aggressive算法进行在线学习。本文探讨其训练模型、解码过程和特征模板,指出由于训练语料不足,分词效果存在局限。
摘要由CSDN通过智能技术生成

FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词、词性标注、文本分类、依存句法分析等功能。


1. 前言

类似于THULAC,FNLP也是采用线性模型(linear model)分词。较于对数线性模型(log-linear model)HMM/CRF所不同的是,线性模型没有归一化因子而直接建模Score函数:

\[S(X,Y) = \sum_s w_s * \Phi_s(X,Y) \]

则序列标注问题对应于求解:

\[\mathop{\arg \max}_{Y} S(X,Y) \]

THULAC是采用感知器来学习参数\(w_s\),而FNLP则是采用在线学习算法Passive-Aggressive(PA) [2]。PA算法结合感知器与SVM的优点,学习速度快;损失函数为hinge loss:

\[loss(W;(X,Y)) = \left \{ { \matrix { {0,} & {\gamm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅唱书令

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值