泰文分词

最新推荐文章于 2024-08-13 08:28:00 发布

Singha胜狮

最新推荐文章于 2024-08-13 08:28:00 发布

阅读量1.5k

点赞数 2

分类专栏：泰文NLP 文章标签： nlp 自然语言处理机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/singdo123/article/details/109599176

版权

泰文NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

泰文的分词研究开始于1990年左右，经过近30年的研究，已经有好几种算法被应用于解决该问题。这些算法可以被分为两大类：

基于字典的：例如Chrome’s v8 BreakIterator 和 PyThaiNLP’s newmm，以及Cutkum，SWATH，上述开源项目中PyThaiNLP功能最全面。
基于机器学习的：基于标记数据，binary classification
2.1 基于CNN卷积神经网络的：DeepCut
2.2 基于RNN循环神经网络的：Sertis’ Bi-GRU

一般而言，基于字典的算法分词速度更快，但是应对未登录词的能力较弱；基于机器学习的方法往往质量更好，能够适应不同领域的词汇，但是速度相对较慢。例如，上述分词方法中DeepCut的召回率最好，但分词过细，PyThaiNLP’s newmm 方法的分词粒度较好，但召回率最低。

github链接：

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。