开源中文分词工具探析(四):THULAC

46 篇文章 10 订阅 ¥19.90 ¥99.00
THULAC是一款高效准确的中文分词工具,利用结构化感知器模型,将分词视为序列标注问题。文章详细解析了THULAC的训练模型、特征数据和解码过程,包括特征模板、Viterbi算法的应用以及如何通过DAT存储特征。
摘要由CSDN通过智能技术生成

THULAC是一款相当不错的中文分词工具,准确率高、分词速度蛮快的;并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等。


1. 前言

THULAC所采用的分词模型为结构化感知器(Structured Perceptron, SP),属于两种CWS模型中的Character-Based Model,将中文分词看作为一个序列标注问题:对于字符序列\(C=c_1^n\),找出最有可能的标注序列\(Y=y_1^n\)。定义score函数\(S(Y,C)\)为在\(C\)的情况下标注序列为\(Y\)的得分。SP以最大熵准则建模score函数,分词结果则等同于最大score函数所对应的标注序列。记在时刻\(t\)的状态为\(y\)的路径\(y_1^{t}\)所对应的score函数最大值为

\[\delta_t(y) = \max S(y_1^{t-1}, C, y_t=y) \]

那么,则有递推式

<
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅唱书令

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值