日本语自然语言处理中的分词库 - GiNZA

日本语自然语言处理中的分词库 - GiNZA

0. 引言

RAG 场景下提供精确的一个手法就是使用 Hybrid Search,Hybrid Search的另外一个检索就是全文检索。

使用 Elastic Search 进行全文检索的方案应该比较成熟,但是我这次方案中要使用的是 Oracle Text,而且语言是日本语。

在日本同事的帮助之下,定位到 GiNZA 这个日本语自然语言处理中的分词库。

接下来就开始学习学习 GiNZA 吧。

1. 日本语分词库

  • MeCab
    MeCab是由京都大学信息学研究科和日本电信电话株式会社(NTT)通信科学基础研究所联合研究小组开发的开源形态素分析引擎。

  • Janome
    Janome是一个用纯Python编写的、内置词典的形态素分析器。
    无需依赖任何其他库就可以轻松安装,并提供简单易用的API,适合嵌入到应用程序中。

  • GiNZA
    GiNZA是一个日语自然语言处理库。
    它起源于英语等主要语言的自然语言处理框架spaCy,可以视为spaCy的日语版本

  • JUMAN
    JUMAN是由京都大学开发的形态素分析工具。
    它旨在为从事日语分析研究的众多学者提供一个通用的形态素分析工具。
    考虑到学校语法不太适合计算机处理,JUMAN允许用户轻松定义语法和词之间的连接关系。

  • Sudachi
    Sudachi是由WorksApplications徳岛人工智能NLP研究所开发的形态素分析器。
    Sudachi主要执行以下三个处理步骤:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值