es-多语⾔及中⽂分词与检索

最新推荐文章于 2024-10-14 23:34:35 发布

程序猿大爷

最新推荐文章于 2024-10-14 23:34:35 发布

阅读量305

点赞数

分类专栏： Elasticsearch java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mao_mao9/article/details/111572343

版权

本文探讨了自然语言查询的Recall优化，包括归一化词元、抽取词根和处理拼写错误。混合多语种场景带来了词干提取和文档频率计算的挑战。中⽂分词经历了字典法到基于统计的机器学习算法的发展，目前的分词器如HanLP和IK已能有效处理分词任务。

摘要由CSDN通过智能技术生成

⾃然语⾔与查询 Recall

● 当处理⼈类⾃然语⾔时，有些情况，尽管搜索和原⽂不完全匹配，但是希望搜到⼀些内容

● Quick brown fox 和 fast brown fox / Jumping fox 和 Jumped foxes

● ⼀些可采取的优化

● 归⼀化词元：清除变⾳符号，如 rôle 的时候也会匹配 role

● 抽取词根：清除单复数和时态的差异

● 包含同义词

● 拼写错误：拼写错误，或者同⾳异形词

混合多语⾔的挑战

● ⼀些具体的多语⾔场景

● 不同的索引使⽤不同的语⾔ / 同⼀个索引中，不同的字段使⽤不同的语⾔ / ⼀个⽂档的⼀个字段内混合不同的语⾔

● 混合语⾔存在的⼀些挑战

● 词⼲提取：以⾊列⽂档，包含了希伯来语，阿拉伯语，俄语和英⽂

● 不正确的⽂档频率 – 英⽂为主的⽂章中，德⽂算分⾼（稀有）

● 需要判断⽤户搜索时使⽤的语⾔，语⾔识别（Compact Language Detector)

● 例如，根据语⾔，查询不同的索引

分词的挑战

最低0.47元/天解锁文章

程序猿大爷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。