日本语自然语言处理中的分词库 - GiNZA

engchina

于 2024-04-18 20:31:18 发布

阅读量1.4k

点赞数 23

分类专栏： LINUX 文章标签：自然语言处理人工智能 GiNZA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/engchina/article/details/137935115

版权

日本语自然语言处理中的分词库 - GiNZA

0. 引言
1. 日本语分词库
2. GiNZA
3. 使用 GiNZA

0. 引言

RAG 场景下提供精确的一个手法就是使用 Hybrid Search，Hybrid Search的另外一个检索就是全文检索。

使用 Elastic Search 进行全文检索的方案应该比较成熟，但是我这次方案中要使用的是 Oracle Text，而且语言是日本语。

在日本同事的帮助之下，定位到 GiNZA 这个日本语自然语言处理中的分词库。

接下来就开始学习学习 GiNZA 吧。

1. 日本语分词库

MeCab
MeCab是由京都大学信息学研究科和日本电信电话株式会社(NTT)通信科学基础研究所联合研究小组开发的开源形态素分析引擎。
Janome
Janome是一个用纯Python编写的、内置词典的形态素分析器。
无需依赖任何其他库就可以轻松安装,并提供简单易用的API,适合嵌入到应用程序中。
GiNZA
GiNZA是一个日语自然语言处理库。
它起源于英语等主要语言的自然语言处理框架spaCy,可以视为spaCy的日语版本。
JUMAN
JUMAN是由京都大学开发的形态素分析工具。
它旨在为从事日语分析研究的众多学者提供一个通用的形态素分析工具。
考虑到学校语法不太适合计算机处理,JUMAN允许用户轻松定义语法和词之间的连接关系。
Sudachi
Sudachi是由WorksApplications徳岛人工智能NLP研究所开发的形态素分析器。
Sudachi主要执行以下三个处理步骤:

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。