开源中文分词工具探析（四）：THULAC

浅唱书令

已于 2023-06-01 14:13:42 修改

阅读量736

点赞数 1

分类专栏：人工智能文章标签：中文分词自然语言处理

于 2017-02-22 15:57:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/keyboardlabourer/article/details/130980708

版权

人工智能专栏收录该内容

46 篇文章 10 订阅 ¥19.90 ¥99.00

订阅专栏

THULAC是一款高效准确的中文分词工具，利用结构化感知器模型，将分词视为序列标注问题。文章详细解析了THULAC的训练模型、特征数据和解码过程，包括特征模板、Viterbi算法的应用以及如何通过DAT存储特征。

摘要由CSDN通过智能技术生成

THULAC是一款相当不错的中文分词工具，准确率高、分词速度蛮快的；并且在工程上做了很多优化，比如：用DAT存储训练特征(压缩训练模型)，加入了标点符号的特征(提高分词准确率)等。

1. 前言

THULAC所采用的分词模型为结构化感知器(Structured Perceptron, SP)，属于两种CWS模型中的Character-Based Model，将中文分词看作为一个序列标注问题：对于字符序列\(C=c_1^n\)，找出最有可能的标注序列\(Y=y_1^n\)。定义score函数\(S(Y,C)\)为在\(C\)的情况下标注序列为\(Y\)的得分。SP以最大熵准则建模score函数，分词结果则等同于最大score函数所对应的标注序列。记在时刻\(t\)的状态为\(y\)的路径\(y_1^{t}\)所对应的score函数最大值为

\[\delta_t(y) = \max S(y_1^{t-1}, C, y_t=y) \]

那么，则有递推式

<

了解本专栏

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
开源中文分词工具探析（四）：THULAC

THULAC是一款相当不错的中文分词工具，准确率高、分词速度蛮快的；并且在工程上做了很多优化，比如：用DAT存储训练特征(压缩训练模型)，加入了标点符号的特征(提高分词准确率)等。【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR)开源中文分词工具探析(二)：Jieba开源中文分词工具探析(三)：Ansj开源中文分词工具探析(四)：THULAC...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅唱书令 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。