日本语自然语言处理中的分词库 - GiNZA
0. 引言
RAG 场景下提供精确的一个手法就是使用 Hybrid Search,Hybrid Search的另外一个检索就是全文检索。
使用 Elastic Search 进行全文检索的方案应该比较成熟,但是我这次方案中要使用的是 Oracle Text,而且语言是日本语。
在日本同事的帮助之下,定位到 GiNZA 这个日本语自然语言处理中的分词库。
接下来就开始学习学习 GiNZA 吧。
1. 日本语分词库
-
MeCab
MeCab是由京都大学信息学研究科和日本电信电话株式会社(NTT)通信科学基础研究所联合研究小组开发的开源形态素分析引擎。 -
Janome
Janome是一个用纯Python编写的、内置词典的形态素分析器。
无需依赖任何其他库就可以轻松安装,并提供简单易用的API,适合嵌入到应用程序中。 -
GiNZA
GiNZA是一个日语自然语言处理库。
它起源于英语等主要语言的自然语言处理框架spaCy,可以视为spaCy的日语版本。 -
JUMAN
JUMAN是由京都大学开发的形态素分析工具。
它旨在为从事日语分析研究的众多学者提供一个通用的形态素分析工具。
考虑到学校语法不太适合计算机处理,JUMAN允许用户轻松定义语法和词之间的连接关系。 -
Sudachi
Sudachi是由WorksApplications徳岛人工智能NLP研究所开发的形态素分析器。
Sudachi主要执行以下三个处理步骤: