es-多语⾔及中⽂分词与检索

本文探讨了自然语言查询的Recall优化,包括归一化词元、抽取词根和处理拼写错误。混合多语种场景带来了词干提取和文档频率计算的挑战。中⽂分词经历了字典法到基于统计的机器学习算法的发展,目前的分词器如HanLP和IK已能有效处理分词任务。
摘要由CSDN通过智能技术生成

⾃然语⾔与查询 Recall

      

● 当处理⼈类⾃然语⾔时,有些情况,尽管搜索和原⽂不完全匹配,但是希望搜到⼀些内容

                        ● Quick brown fox 和 fast brown fox / Jumping fox 和 Jumped foxes

● ⼀些可采取的优化

                        ● 归⼀化词元:清除变⾳符号,如 rôle 的时候也会匹配 role

                        ● 抽取词根:清除单复数和时态的差异

                        ● 包含同义词

                        ● 拼写错误:拼写错误,或者同⾳异形词

混合多语⾔的挑战

● ⼀些具体的多语⾔场景

                        ● 不同的索引使⽤不同的语⾔ / 同⼀个索引中,不同的字段使⽤不同的语⾔ / ⼀个⽂档的⼀个字段内混合不同的语⾔

● 混合语⾔存在的⼀些挑战

                        ● 词⼲提取:以⾊列⽂档,包含了希伯来语,阿拉伯语,俄语和英⽂

                        ● 不正确的⽂档频率 – 英⽂为主的⽂章中,德⽂算分⾼(稀有)

                        ● 需要判断⽤户搜索时使⽤的语⾔,语⾔识别(Compact Language Detector)

                                    ● 例如,根据语⾔,查询不同的索引

分词的挑战

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值